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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 ， 未 经 授权 ， 不 得 进行 传播 。 
我 们 愿意 相信 读者 具有 这 样 的 恨 知 
和 觉悟 ， 与 我 们 共同 保护 知识 产 
权 。 

如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


Garry Turkington 


拥有 14 年 行业 经 验 ， 其 大 部 分 时 间 都 专注 于 
大 型 分 布 式 系统 的 设计 与 实现 。 目 前 ， 他 在 
Improve Digital 公 司 担任 数据 工程 部 副 总 裁 
和 公司 的 首席 架构 师 。 他 主要 负责 实现 可 以 
存储 、 处 理 并 从 公司 海量 数据 中 挖掘 潜在 价 
值 的 系统 。 在 加 入 Improve Digital 公 司 之 前 ， 

他 曾 在 Amazon 英 国 公司 领 导 几 个 软件 开发 
团队 ， 他 们 开发 的 系统 用 于 处 理 Amazon 为 全 
世界 所 有 对 象 创建 的 目录 数据 。 在 此 之 前 ， 

他 还 曾 在 英国 和 美国 政府 机 关 任 职 十 年 。 


他 在 北 爱 尔 兰 的 贝尔 法 斯 特 女 王 大 学 获得 了 
计算 机 学 士 和 博士 学 位 ， 并 在 美国 斯 蒂 文 斯 
理工 学 院 获 得 系统 工程 的 工程 硕士 学 位 。 


张 治 起 

Hadoop 技 术 爱 好 者 和 研究 者 ， 对 Hadoop 技 术 
有 非常 深刻 的 认识 和 理解 ， 热 切 关 注 Hadoop 
和 相关 大 数据 处 理 技术 。 有 着 丰富 的 实践 经 
验 ， 热 袁 于 技术 分 享 ， 致 力 于 不 断 探索 揭 开 
Hadoop 的 神秘 面纱 ， 帮 助 更 多 初学 者 接触 和 
理解 Hadoop。 
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内 容 提 要 


本 书包 括 三 个 主要 部 分 : 第 1~5 章 讲述 了 Hadoop 的 核心 机 制 及 Hadoop 的 工作 模式 ; 第 6~7 章 涵盖 了 
Hadoop 更 多 可 操作 的 内 容 ; 第 8~11 章 介绍 了 Hadoop 与 其 他 产品 和 技术 的 组 合 使 用 。 本 书目 的 在 于 帮助 读 
者 了 解 什么 是 Hadoop, Hadoop 是 如 何 工 作 的 ， 以 及 如 何 使 用 Hadoop 从 数据 中 提取 有 价值 的 信息 ， 并 用 它 
解决 大 数据 问题 。 

本 书 适用 于 有 软件 开发 经 验 的 技术 人 员 。 
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了 中 


前 


本 书目 的 在 于 帮助 读者 理解 Hadoop ， 并 用 它 解 决 大 数据 问题 。 能 使 用 Hadoop 这 样 的 数据 处 
理 技术 进行 工作 是 令 人 激动 的 。 对 大 规模 数据 集 进 行 复杂 分 析 的 能 力 ， 曾 一 度 被 大 公司 和 政府 机 
构 所 芍 断 ， 而 现在 通过 免费 的 OSS (open source software， 开 源 软件 ) 即 可 获得 这 种 能 


该 领域 看 上 去 有 些 复杂 ,并 且 变 化 节奏 很 快 ， 所 以 理解 这 方面 的 基本 知识 让 人 望 而 生 上 其 。 这 
就 是 本 书 诞生 的 意义 所 在 ， 它 帮助 读者 了 解 什么 是 Hadoop ，Hadoop 是 如 何 工作 的 ， 以 及 如 何 使 
用 Hadoop 从 数据 中 提取 有 价值 的 信息 。 


除了 解释 Hadoop 的 核心 机 制 , 本 书 也 会 用 几 童 内 容 来 学 习 其 他 相关 技术 , 这 些 技术 要 么 用 到 
了 Hadoop ， 要 么 需要 与 Hadoop 配 套 使 用 。 我 们 的 目标 是 ， 让 读者 不 仅 理解 Hadoop 是 什么 ， 还 要 
理解 如 何在 更 宽泛 的 技术 设施 中 使 用 Hadoop 。 

本 书 中 提 到 的 男 一 种 技术 是 云 计算 的 应 用 ， 尤 其 是 AWS (Amazon Web Services， 亚 马 逊 网 
络 服务 ) 产品 。 本 书 中 , 我们 将 展示 如 何 使 用 这 些 服务 来 承载 Hadoop 工 作 负 载 。 这 就 意味 着 , 读 
者 无 需 购买 任何 物理 硬件 ， 就 能 处 理 大 规模 数据 。 



























































本 书 内 容 


本 书包 括 3 个 主要 部 分 : 第 1~5 章 讲述 了 Hadoop 的 核心 机 制 及 Hadoop 的 工作 模式 ; 第 6~7 章 涵 
盖 了 Hadoop 更 多 可 操作 的 内 容 ; 第 8~11 章 介绍 了 Hadoop 与 其 他 产品 和 技术 的 组 合 使 用 。 每 章 内 

第 1 章 “ 绪 论 ”。 简 要 介绍 了 产生 Hadoop 和 云 计算 的 背景 。 如 今 看 来 ， 这 些 技术 是 如 此 重要 。 

第 2 章 “ 安 装 并 运行 Hadoop”。 指 导读 者 完成 本 地 Hadoop 和 集群 的 安装 ， 并 运行 一 些 示 例 作 业 。 
为 了 进行 对 比 ， 在 托管 于 亚马逊 服务 的 Hadoop 上 执行 同样 的 任务 。 

第 3 章 “ 理 解 MapReduce”。 深 入 人 研究 Hadoop 运 行 原理 ， 揭 示 了 MapReduce 作 业 的 执行 方式 ， 
并 展示 了 如 何 使 用 Java API 编 写 MapReduce 应 用 程序 。 

第 4 章 “ 开 发 MapReduce 程 序 ”。 通 过 对 一 个 中 等 规模 数据 集 案例 的 学 习 人 研究， 演示 如 何 着 手 
处 理 和 分 析 新 数据 源 。 
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第 5 章 “ 高 级 MapReduce 技 术 ”。 介 绍 一 些 更 复杂 的 应 用 MapRedece 解 决 问题 的 方法 ，Hadoop 
似乎 并 不 直接 适用 于 这 些 问题 。 
第 6 章 “ 故 障 处 理 ”。 详细 检查 Hadoop 备 受 赞誉 的 高 可 用 性 和 容错 能 力 , 通过 强制 结束 进程 和 
故意 使 用 错误 数据 等 方式 故意 制造 破坏 ， 以 检验 Hadoop 在 上 述 情况 下 的 表现 。 
第 7 章 “ 系 统 运行 与 维护 ”从 更 具 操 作 性 的 角度 讲解 Hadoop， 这 对 于 Hadoop 集 群 的 管理 人 
员 非 常 有 用 。 本 章 在 介绍 一 些 最 佳 做 法 的 同时 ,也 描述 了 如 何 预 防 最 糟糕 的 操作 性 灾难 ， 因 此 系 
统管 理 员 可 以 高 枕 无 优 了 。 
第 8 章 “Hive: 数据 的 关系 视图 ”。 介 绍 Apache Hive， 它 允许 使 用 类 似 SQL 的 语法 对 Hadoop 
数据 进行 查询 。 

第 9 章 “ 与 关系 数据 库 协 同 工 作 ”。 探讨 Hadoop 如 何 与 现 有 数据 库 融 合 , 特别 是 如 何 将 数据 从 
一 个 数据 库 移 到 另 一 个 数据 库 。 

第 10 章 “使 用 Flume 收 集 数据 "。 介 绍 如 何 使 用 Apache Flume 从 多 个 数据 源 收集 数据 ， 并 传送 
至 Hadoop 这 样 的 目的 地 。 

第 11 章 “展望 未 来 "。 以 更 广 谤 的 Hadoop 生 态 系统 概述 结束 全 书 ， 重 点 突出 其 他 产品 和 技术 

的 潜在 价值 。 此 外 ， 还 提供 了 一 些 如 何 参 与 Hadoop 社 区 并 获得 帮助 的 方法 。 




















准备 工作 
本 书 每 章 内 容 分 别 介 绍 该 章 用 到 的 Hadoop 相 关 软 件 包 。 但是， 无 论 哪 章 内 容 都 要 用 到 运行 
Hadoop 集 群 的 硬件 设施 。 
在 最 简单 的 情况 下 ， 一 台 基 于 Linux 的 主机 可 作为 运行 几乎 全 书 所 有 示例 的 平台 。 任 何 可 运 
行 Linux 命 令 行 的 先进 操作 系统 都 可 满足 需求 ， 文 中 假设 读者 使 用 的 是 Ubuntu 的 最 新 发 布 版 。 
后 面 儿 章 中 的 一 些 例子 确实 需要 在 多 台 机 器 上 运行 ， 所 以 读者 需要 拥有 至少 4 台 主机 的 访问 
BUR. 虚拟 机 也 是 可 以 的 。 虽然 对 于 产品 来 讲 ,它们 并 非 理想 选择 , 但 完全 能 够 满足 学 习 和 研究 
的 需要 。 


KEF, 我 们 还 将 研究 AWS ， 读 者 可 以 在 EC2 实 例 上 运行 所 有 示例 。 本 书 中 ,我 们 将 更 多 地 
着 眼 于 AWS 针 对 Hadoop 的 具体 用 途 。 任 何人 都 可 以 使 用 AWS 服 务 , 但 需要 一 张 信 用 卡 进行 注册 ! 
































目标 读者 
我 们 认为 ,本 书 读者 想 要 学 习 更 多 关于 Hadoop 的 实践 知识 。 本 书 的 主要 受众 是 , 有 软件 开发 
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经 验 却 没有 接触 过 Hadoop 或 类 似 大 数据 技术 的 人 员 。 

对 于 那些 想 知道 如 何 编写 MapReduce 应 用 的 开发 者 ， 假 设 他 们 能 轻松 地 编写 Java 程 序 并 熟悉 
Unix 命 令 行 接口 。 本 书 还 包含 几 个 Ruby 程 序 示例 , 但 这 些 通常 只 是 说 明 语 言 的 独立 性 , 并 不 要 求 
读者 成 为 一 位 Ruby 专 家 。 

对 于 架构 师 和 系统 管理 员 而 言 , 本 书 也 具有 重大 价值 。 它 解 释 了 Hadoop 的 工作 原理 , Hadoop 
在 更 广阔 的 系统 架构 中 所 处 的 位 置 , 以 及 如 何 管 理 Hadoop 集 群 。 这 类 受众 对 一 些 复杂 技术 可 能 缺 
乏 直 接 兴 趣 ， 如 第 4 章 和 第 5 章 。 























约定 
本 书 中 ， 有 几 个 经 常 出 现 的 标题 。 
为 了 明确 说 明 如 何 完 成 一 个 程序 或 任务 ， 本 书 使 用 下 面 的 格式 详细 描述 操作 步骤 。 





实践 环节 : 标题 


(1) 操作 1 

(2) 操作 2 

(3) 操作 3 

通常 ， 需 要 一 些 额 外 的 解释 帮助 读者 理解 这 些 指令 ， 因 此 紧 随 其 后 的 是 下 面 的 原理 分 析 。 


原理 分 析 
这 部 分 内 容 对 任务 运行 原理 或 刚 完成 的 指令 进行 解释 说 明 。 
本 书 还 包含 一 些 其 他 的 学 习 辅 助 标 记 ， 包 括 : 





随 堂 测验 ， 标 题 


这 是 一 些 简 短 的 多 选 题 ， 目 的 在 于 帮助 读者 测试 对 相关 内 容 的 理解 是 否 正 确 。 


一 展 身手 : 标题 


这 部 分 内 容 设置 一 些 实际 问题 ， 并 为 读者 提供 一 些 验证 所 学 内 容 的 方法 。 





本 书 使 用 多 种 文字 风格 来 区 分 不 同 种 类 的 信息 。 下 面 是 一 些 例子 还 有 对 其 意义 的 解释 。 
代码 块 设置 如 下 : 你 也 许 注意 到 , 我 们 使 用 Unix 命 令 rm 而 不 是 DOS gel 命令 移 除 Drush 目 录 。 








前 * vii 





4 * Fine Tuning 

# 

key_buffer = 16M 
key_buffer_size = 32M 
max_allowed_packet = 16M 
thread_stack = 512K 
thread_cache_size = 8 
max_connections = 300 


如 果 代 码 块 的 特定 部 分 需要 特别 关注 ， 相 应 行 或 内 容 会 加 粗 显示 。 


# * Fine Tuning 

# 

key_buffer = 16M 

key buffer size = 32M 
max allowed packet - 16M 
thread stack - 512K 
thread cache size - 8 
max connections - 300 


命令 行 的 输入 或 输出 会 以 如 下 形式 显示 。 


cd /ProgramData/Propeople 
rm -r Drush 
git clone --branch master http://git.drupal.org/project/drush.git 


新 词 或 者 重要 的 词 会 以 黑体 字 显 示 。 以 菜单 或 对 话 框 为 例 , 读者 在 屏幕 上 看 到 的 内 容 如 下 所 
示 “ 在 Select Destination Location ( 选择 目的 地 址 ) 页 面 ， 点 击 Next (下 一 步 ) 按钮 接受 默认 输 
出 地 址 。” 


| 警告 或 重要 提示 会 出 现在 这 样 的 方 框 里 。 


| 小 窍门 和 技巧 会 以 这 样 的 形式 出 现 。 


读者 反馈 
我 们 非常 欢迎 来 自 读者 的 反馈 。 将 你 对 本 书 的 看 法 告诉 我 们 , 哪些 内 容 是 你 喜欢 的 或 哪些 是 
你 不 喜欢 的 。 读 者 反馈 可 以 帮助 我 们 不 断 提 高 书稿 质量 ， 这 是 非常 重要 的 。 


你 只 需 向 我 们 发 送 一 封 电子 邮件 ,在 邮件 主题 中 提 及 书 名 即 可 反馈 你 的 意见 。 我 们 的 邮箱 是 : 
feedback(Opacktpub.com。 


如 果 你 擅长 某 个 领域 并 对 写作 或 者 创作 有 兴趣 , 请 参阅 www.packtpub.com/authors 上 的 作者 指南 。 





























ZPL 
既然 你 购买 了 Packt 的 图 书 ， 我 们 将 为 你 提供 多 种 服务 ， 使 你 本 次 购买 物 超 所 值 。 


下 载 示例 代码 

你 可 以 通过 http://www.packtpub.com 网 站 的 账号 下 载 所 购买 Packt 书 籍 的 示例 代码 文件 。 或 者 
登录 网 站 http://www.packtpub.conmy/support 进 行 注 册 ， 随 后 我 们 将 通过 电子 邮件 向 你 发 送 本 书 配 套 
的 示例 代码 文件 。 





勘误 表 


虽然 作者 尽 最 大 努力 保证 本 书 内 容 的 准确 性 ， 然 而 错误 在 所 难免 。 如 果 你 在 Packt 出 版 的 书 
中 发 现 了 文字 错误 或 是 代码 错误 ,衷心 希望 你 能 及 时 向 我 们 反馈 ,并 预 致谢 意 。 你 的 意见 可 以 帮 
助 我 们 改进 图 书 的 后 续 版 本 , 并 能 帮助 其 他 读者 避免 错误 。 请 通过 以 下 步 又 提交 你 发 现 的 错误 之 
Ab: 访问 网 站 http:/www.packtpub.com/submit-errata， 选 择 相应 图 书 ， 点 击 提交 勘误 表 ， 登 记 你 的 
勘误 表 详 情 。 勘 误 表 通 过 验证 之 后 将 上 传 到 Packt 网 站 ， 或 添加 到 已 有 的 勘误 列表 中 。 






























































关于 盗版 


互联 网 上 的 盗版 问题 由 来 已 入， 而 且 各 种 形式 的 媒介 都 存在 这 个 问题 。Packt 出 版 社 非常 重 
视 版 权 保 护 问题 。 如 果 你 在 互联 网 上 看 到 了 Packt 图 书 的 任何 非法 拷贝 ， 无 论 它 以 何 种 形式 存在 ， 
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本 书 介绍 一 种 大 规模 数据 处 理 的 开源 框架 一 一 Hadoop。 在 深入 探讨 它 的 
技术 细节 和 应 用 之 前 ， 很 有 必要 花 点 时 间 来 了 解 Hadoop 及 其 取得 巨大 成 功 的 
历史 背景 。 

Hadoop 并 不 是 凭空 想象 出 来 的 ， 它 的 出 现 源 于 人 们 创建 和 使 用 的 数据 量 
的 爆炸 性 增长 。 在 此 背景 下 ， 不 仅 是 庞大 的 跨国 公司 面临 着 海量 数据 处 理 的 
困难 ， 小 型 创业 公司 同样 如 此 。 与 此 同时 ， 其 他 历史 变革 改变 了 软件 和 系统 
的 部 署 方式 ， 除 了 传统 的 基础 设施 ， 人 们 开始 使 用 甚至 偏好 于 云 资源 。 





本 章 将 要 探讨 Hadoop 出 现 的 背景 ， 并 详细 讲解 Hadoop 想 要 解决 的 问题 和 决定 其 最 终 设计 的 
内 在 驱动 因素 。 


本 章 包 括 以 下 内 容 : 


口 概述 大 数据 革命 ; 

口 讲解 Hadoop 是 什么 以 及 如 何 从 数据 中 获取 有 价值 信息 ; 

O 探秘 云 计 算 并 了 解 AWS (Amazon Web Services， 亚 马 逊 网 络 服务 ) 的 功能 ; 
口 了 解 大 数据 处 理 技术 与 云 计算 相 结合 带 来 的 巨大 威力 ; 

口 概述 本 书 其 余 章节 内 容 。 


现在 我 们 开始 吧 ! 








1.1 大 数据 处 理 


审视 现 有 技术 ,不 难 发 现 , 所 有 技术 都 以 数据 为 核心 。 作 为 用 户 , 我 们 对 富 媒体 的 欲望 与 日 
俱 增 ， 比 如 观看 的 电影 和 创建 并 上 传 到 网 络 的 照片 和 视频 。 我 们 也 常常 在 日 常生 活 中 , 不经意 地 
在 网 上 留 下 一 串 数 据 。 








2 $13 绪论 








不 仅 是 数据 总 量 在 迅速 增加 , 同时 数据 生成 速率 也 在 不 断 增加 。 从 电子 邮件 到 Facebook 留 言 ， 
从 网 上 购物 记录 到 网 站 链接 ， 到 处 都 是 不 断 增长 的 大 数据 集 。 在 此 背景 下 ， 最 大 的 挑战 在 于 ,如 
何 从 这 些 数据 中 提取 最 有 价值 的 信息 。 有 时 是 提取 特定 的 数据 元 素 , 有 时 是 分 析 数 据 间 的 关系 或 
是 判断 一 种 趋势 。 

微妙 的 变化 悄然 发 生 , 数据 的 使 用 方式 变 得 越 来 越 有 意义 。 一 段 时 间 以 来 , 大 型 公司 已 经 意 
识 到 了 数据 的 价值 ， 并 用 它 来 提升 服务 质量 。 例 如 ，Google 在 用 户 正 在 访问 的 网 页 上 显示 内 容 相 
关 的 广告 ，Amazon 或 Netflix 向 用 户 推荐 合乎 其 口味 和 兴趣 的 新 产品 或 新 电影 。 
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1.4.1. 数据 的 价值 


如 果 不 会 傍 来 有 价值 的 回报 或 者 明显 的 竞争 优势 , 这 些 大 型 企业 是 不 会 投资 发 展 大 数据 处 理 
技术 的 。 应 当 从 以 下 几 个 方面 来 认识 大 数据 。 


O 只 有 在 数据 集 足 够 大 的 时 候 ， 某 些 问题 才 变 得 有 意义 。 例 如 ， 在 其 他 影响 因素 缺失 的 情 
况 下 ， 基 于 一 个 第 三 人 的 喜好 推荐 电影 是 不 可 能 非常 精准 的 。 然 而 ， 当 参考 样本 增加 到 
100 时 ， 推 荐 成 功 的 几率 略 有 上 升 。 而 使 用 1000 万 人 的 观看 记录 ， 可 以 大 幅 提升 获得 推荐 
模型 的 可 能 性 。 

a 与 之 前 的 解决 方案 相 比 ， 大 数据 处 理工 具 通 常 能 够 以 较 低 的 成 本 处 理 更 大 规模 的 数据 。 

因此 ， 能 够 在 可 接受 的 成 本 范围 内 执行 以 往 花费 极 高 的 数据 处 理 任务 。 

O 大 规模 数据 处 理 的 成 本 不 仅 体现 在 财务 费用 上 ， 等 待 时 间 也 是 一 个 重要 因素 。 如 果 一 个 
系统 能 够 处 理 所 有 到 达 数 据 ， 但 是 其 平均 处 理 时 间 以 周 为 计量 单位 ， 那 么 该 系统 也 是 不 
可 用 的 。 大 数据 处 理工 具 通过 将 增加 的 数据 量 分 配 到 附加 的 硬件 ， 来 保证 即使 在 数据 量 
增加 的 情况 下 ， 处 理 时 间 也 不 会 失控 。 

口 为 了 满足 数据 库 中 最 大 数据 的 需要 ， 可 能 需要 重新 审视 之 前 关于 数据 库 形式 或 者 其 中 数 

据 结构 的 假设 。 

口 综合 上 述 几 点 内 容 ， 足 够 大 的 数据 集 以 及 灵活 的 工具 可 以 使 之 前 无 法 想象 的 问题 得 到 
解答 。 









































1.1.2 ”受众 较 少 

前 面 讨论 的 从 大 数据 中 提取 有 价值 信息 用 于 改进 服务 质量 的 例子 ,往往 属于 大 型 搜索 引擎 和 
在 线 公司 的 创新 模式 。 这 是 因为 在 早期 发 展 过程 中 , 大 数据 处 理 不 仅 成 本 高 而 且 实 现 困 难 , 超出 
了 中 小 企业 的 能 力 范围 。 


同样 ， 比 大 数据 处 理 技术 应 用 更 为 广泛 的 数据 挖掘 方法 已 经 存在 了 很 长 一 段 时 间 , 但 是 在 大 
型 企业 和 政府 部 门 之 外 却 从 来 没有 真正 得 到 推广 使 用 。 
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这 种 情况 的 出 现 可 能 令 人 感到 遗憾 。 但 在 过 去 , 对 于 大 多 数 小 公司 来 讲 却 无 关 紧要 ， 因 为 它 
们 的 数据 量 很 少 ， 并 不 需要 投入 大 量 的 资金 来 处 理 这 些 数据 。 


然而 , 现 如 今 数据 量 的 增加 不 再 局 限于 大 型 组 织 , 许多 中 小 型 公司 其 至 一 些 个 人 收集 到 的 数 
据 也 越 来 越 多 。 他 们 也 意识 到 这 些 数 据 中 可 能 包含 着 正 待 发 掘 的 价值 。 


在 理解 如 何 实现 这 一 目标 之 前 ， 很 有 必要 了 解 黄 定 Hadoop 系 统 基础 的 背景 情况 。 
1. 经 典 的 数据 处 理 系 统 


造成 大 数据 控 据 系统 稀 有 且 昂 贵 的 根本 原因 是 , 将 现 有 小 型 计算 系统 扩展 为 大 数据 处 理 系统 
是 非常 困难 的 。 正 如 我 们 所 见 ,一 直 以 来 ,数据 处 理 系统 的 处 理 能 力 一 直 受 限于 单 台 计 算 机 的 极 
限 运算 能 力 。 

随 着 数据 规模 的 增长 ， 出 现 了 两 种 常用 的 扩展 系统 的 方法 ,通常 称 之 为 “向 上 扩展 ”和 “向 
外 扩展 ”。 


e 向 上 扩展 


在 大 多 数 企 业 , 数据 处 理 任务 通常 由 相当 昂贵 的 大 型 机 来 执行 。 随 着 数据 规模 的 增长 , 向 上 
扩展 的 方法 就 是 将 数据 处 理 任务 迁移 到 更 大 的 服务 器 或 者 存储 矩阵 。 即 便 以 今天 的 视角 来 看 , 这 
种 架构 确实 有 效 , 但 其 硬件 成 本 会 很 容易 达到 几 十 万 甚至 几 百 万 美元 。 本 章 的 后 续 内 容 对 此 有 所 

简单 的 向 上 扩展 系统 的 优点 是 , 系统 的 架构 并 不 会 随 着 数据 量 的 增 大 而 发 生 显著 变化 。 尽管 
采用 了 更 大 型 的 部 件 ， 但 部 件 之 间 的 基本 关系 ( 例如 数据 服务 器 和 存储 矩阵 ) 却 依然 保持 一 致 。 
对 于 像 商 业 数 据 库 引擎 这 样 的 应 用 而 言 , 可 以 通过 软件 来 处 理 使 用 硬件 带 来 的 复杂 性 。 但 是 从 理 
论 上 来 讲 , 数据 处 理 能 力 是 通过 把 相同 的 软件 迁移 到 规模 越 来 越 大 的 服务 器 上 来 实现 的 。 需要 注 
意 的 是 ,把 软件 迁移 到 越 来 越 多 的 处 理 器 上 也 存在 一 定 困难 。 同 时 , 单 台 计算 机 的 处 理 能 力也 受 
到 现实 条 件 的 约束 。 因 此 ， 向 上 扩展 的 系统 达到 其 极限 后 ， 无 法 进一步 扩展 数据 处 理 的 规模 。 


单一 架构 的 数据 处 理 器 的 规模 不 可 能 无 限 扩 大 。 从 概念 上 来 讲 , 通过 向 上 扩展 系统 的 方式 设 
计 一 个 处 理 能 力 为 1TB、100 TB 到 1 PB 数据 的 系统 ， 可 能 仅 需 使 用 更 大 规模 的 相同 部 件 。 但 随 着 
数据 规模 的 增长 ， 这 些 定制 硬件 之 间 连 接 的 复杂 性 可 能 与 之 前 的 廉价 部 件 有 所 不 同 。 

e 早期 向 外 扩展 的 方法 

向 外 扩展 的 方法 并 不 通过 升级 系统 的 硬件 来 获得 更 强 的 处 理 能 力 , 而 是 将 数据 处 理 任 务 分 发 
给 越 来 越 多 的 机 器 。 如 果 数 据 集 的 规模 翻 倍 了 , 那 就 使 用 两 台 机 需 来 处 理 ， 而 不 是 一 台 有 着 两 倍 
处 理 能 力 的 机 器 。 如 果 数 据 规 模 继续 翻 倍 ， 那 就 使 用 四 台 机 器 来 处 理 。 


与 向 上 扩展 的 方法 相 比 , 向 外 扩展 系统 的 明显 优势 在 于 采购 成 本 大 大 低 于 前 者 。 大 型 机 的 硬 
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件 成 本 随 着 处 理 能 力 的 增长 而 激增 一 一 假设 一 人 台 主 机 的 采购 成 本 为 53000 美 元， 那么 一 台 具 有 10 
倍 处 理 能 力 的 机 顺 可 能 要 花 掉 百倍 的 钱 。 向 外 扩展 系统 方法 的 不 足 之 处 在 于 ,需要 确定 一 种 策略 
来 把 数据 处 理 任务 分 发 给 不 同 的 机 融 ， 而 经 验证 明 具 有 上 述 用 途 的 工具 异常 复 杂 。 


因此 , 部 署 一 套 向 外 扩展 的 解决 方案 是 一 项 浩大 的 工程 。 系统 研 发 人 员 不 仅 要 设计 数据 切 分 
和 重组 机 制 ， 还 要 设计 在 处 理 器 集群 间 调 度 工 作 和 处 理 个 别 机 器 故障 的 逻辑 。 


2. 制约 因素 


除 大 型 企业 政府 和 学 术 研 究 机构 外 ,上 述 向 上 扩展 和 向 外 扩展 的 方法 并 没有 得 到 广泛 应 用 。 
通常 ,系统 的 采购 成 本 很 高 , 研发 和 维护 这 些 系统 的 成 本 同样 很 高 。 这 些 因素 导致 这 些 系统 很 难 
被 小 型 企业 所 接纳 。 此 外 ， 这 些 方法 本 身 的 缺陷 也 随 着 时 间 推 移 逐 步 显 现 。 


口 随 着 向 外 扩展 的 系统 规模 变 大 或 者 向 上 扩展 的 系统 所 需 CPU 数 量 增多 ， 由 系统 并 发 带 来 
的 系统 复杂 性 问题 日 益 明 显 。 如 何 有 效 利 用 多 台 主 机 或 多 个 CPU 是 一 个 大 难题 。 要 想 在 
整个 数据 处 理 任务 执行 期 间 保持 系统 高 效 运 作 ， 需 要 付出 极 大 的 努力 。 

口 通常 硬件 性 能 〈 用 摩尔 定律 描述 ) 的 提升 在 不 同 硬件 上 的 表现 大 相 径 庭 。CPU 性 能 的 提 
升 速度 远 远 超过 了 网 络 或 硬盘 性 能 提升 的 速度 。CPU 周 期 一 度 是 系统 中 最 有 价值 的 资源 ， 
现在 却 并 非 如 此 。 现 代 CPU 的 运行 速度 是 20 年 前 的 数 百 万 倍 ， 然 而 内 存 和 硬盘 的 速度 却 
只 提升 了 上 千 倍 甚至 上 百倍 。 用 这 种 高 性 能 CPU 很 容易 搭建 一 个 现代 系统 ， 但 在 该 系统 
中 ， 存 储 系统 提供 数据 的 速率 却 无 法 满足 CPU 的 工作 需要 。 





















































1.1.3 ”一 种 不 同 的 方法 
上 述 场景 中 ,有 一 些 技术 成 功 地 解决 了 令 人 头疼 的 将 数据 处 理 系 统 扩展 为 大 数据 处 理 系 统 的 


问题 。 
1. 条 条 大 路 通 罗 马 : 向 外 扩展 


如 上 所 述 , 采用 向 上 扩展 的 方法 并 不 是 一 种 开放 式 的 策略 。 它 受 限 于 从 主流 的 硬件 供应 商 购 
买 的 单个 服务 器 的 规模 ， 甚 至 专业 的 供应 商都 无 法 提供 足够 大 的 服务 器 。 在 某 些 情况 下 , 工作 负 
载 的 增 量 会 超出 单 台 整体 向 上 扩展 的 服务 顺 的 能 力 , 这 时 该 怎么 办 呢 ? 很 遗憾 ,最 好 的 办 法 就 是 
使 用 两 台大 型 服务 器 ， 而 不 是 一 台 服 务 器 。 以 此 类 推 ， 就 会 有 三 台 、 四 台 ， 甚 至 更 多 服务 器 。 或 
者 换言之 ， 在 极端 情况 下 ， 向 上 扩展 架构 的 必然 趋势 是 加 入 向 外 扩展 的 策略 ， 将 二 者 结合 起 来 。 
尽管 这 样 同时 吸收 了 两 种 方法 的 部 分 优点 , 但 也 综合 了 两 种 方法 的 缺陷 和 成 本 : 单一 的 方法 要 么 
需要 昂贵 的 人 硬件， 要 么 需要 手工 开发 跨 集群 逮 辑 ， 而 在 混合 如 构 中 缺 一 不 可 。 


向 上 扩展 架构 的 终极 趋势 和 成 本 曲线 导致 其 在 大 数据 处 理 领 域 鲜 有 应 用 ,而 向 外 扩展 的 架构 
却 成 了 事实 上 的 标准 。 
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M 假如 待 解决 的 问题 涉及 的 数据 具有 很 强 的 内 部 交叉 引用 ， 并 需 保 证 事务 完 
Q 整 性 ， 基 于 大 型 计算 机 的 向 上 扩展 的 关系 数据 库 仍 不 失 为 一 个 好 的 选择 。 


2. 不 共享 任何 内 容 


父母 会 花 相 当 长 的 时 间 去 教 孩 子 , 这 是 一 个 很 好 的 共享 案例 。 但 是 , 不 应 将 共享 原则 延伸 到 
数据 处 理 系 统 ， 这 一 原则 既 适 用 于 数据 也 适用 于 硬件 。 


从 概念 上 看 ,向 外 扩展 架构 刻意 凸显 了 主机 的 独立 性 ,每 台 主 机 处 理 整个 数据 集 的 一 个 子 集 ， 
并 输出 最 终结 果 的 一 部 分 。 现 实情 况 通常 并 非 如 此 简单 。 相 反 ， 主 机 之 间 可 能 需要 通信 ， 多 台 主 
机 可 能 会 用 到 相同 的 一 些 数据 片段 。 主 机 间 相 互 依赖 给 系统 带 来 了 两 个 负面 影响 : 瓶颈 问题 和 增 
加 了 故障 风险 。 

如 果 系 统 的 每 次 运算 都 要 调用 同一 块 数据 或 同一 个 服务 器 ,那么 多 个 相互 竞争 的 客户 端 访 问 
同一 数据 或 同一 主机 很 可 能 造成 系统 延迟 。 例 如 , 由 25 人 台 主 机 组 成 的 系统 中 , 所 有 的 主机 都 必须 
访问 其 中 一 台 主 机 ， 整 个 系统 的 性 能 就 会 受 限于 这 台 关 键 主机 的 处 理 能 力 。 

更 糟糕 的 是 ,如 果 这 个 “热点 ”服务 器 或 存储 系统 的 关键 数据 失效 ,那么 整个 工作 将 会 瞬间 
瘫痪 。 早 期 的 集群 解决 方案 往往 证 明了 这 一 风险 一 一 即便 使 用 多 台 服 务 右 共同 处 理工 作 任 务 , 却 
往往 使 用 同一 个 共享 存储 系统 保存 所 有 数据 。 

与 共享 资源 不 同 , 一 个 系统 的 各 个 组 成 部 分 应 当 尽 可 能 保持 独立 。 这 种 情况 下 ,每 个 部 件 都 
能 正常 工作 ， 而 不 用 理会 其 余部 件 是 否 忙 于 处 理 复杂 的 工作 ， 或 是 否 已 处 于 故障 状态 。 


3. 故障 预期 


上 述 原 则 提倡 尽 可 能 保持 独立 , 然而 潜在 的 夷 端 是 要 消耗 更 多 的 硬件 。 如 果 组 成 系统 的 个 别 
组 件 会 经 常 定 期 或 不 定期 地 发 生 故 障 ， 这 是 可 以 实现 的 。 








































































































读者 可 能 经 常 听 到 “五 个 九 ” 这 样 的 词 ， 它 指 的 是 99.999% 的 正常 运行 时 间 
或 者 可 用 性 。 虽然 从 绝对 意义 上 来 讲 ,， 这 是 最 好 的 可 用 性 , 但 也 要 认识 到 ， 由 许 
， ”多 这 种 设备 组 成 的 系统 的 整体 可 靠 性 可 以 相差 很 大 ,这 取决 于 该 系统 能 否 容 妨 
个 组 件 故障 。 
假设 一 套 系 统 需 要 5 台 可 靠 性 达 99% 的 服务 器 才能 运行 。 那 么 ， 该 系统 的 可 
用 性 为 0.99*0.99*0.99*0.99*0.99， 也 就 是 可 用 性 为 95%。 但 是 如 果 单 个 服务 器 的 
可 靠 性 仅 为 95% 的 话 ， 那 么 整个 系统 的 可 靠 性 就 下 降 到 只 有 76%。 








相反 ， 如 果 在 任意 时 刻 ， 只 要 保证 5 台 服 务 器 中 的 1 台 正 常 工作 ,系统 即 运行 正常 。 那 么 , A 
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统 的 可 用 性 就 高 达 99.999%。 系 统 的 正常 运行 时 间 与 各 个 组 件 的 可 靠 性 临界 点 相关 ， 这 个 观点 有 
助 于 更 直观 地 认识 什么 是 系统 可 用 性 。 





如 果 “ 系 统 可 用 性 为 99%” 这 样 的 表述 有 点 抽象 的 话 ， 可 以 从 系统 在 给 定时 


A 间 段 内 的 故障 时 间 来 考虑 这 一 问题 。 举 个 例子 来 说 明 ，99% 的 可 用 性 相当 于 一 年 
中 有 3.5 天 的 故障 时 间 ， 或 者 是 一 个 月 中 有 7 个 小 时 的 故障 时 间 。99% 的 可 用 性 还 
是 听 上 去 那么 美好 吗 ? 








接受 故障 的 做 法 ， 往 往 是 新 手 在 充分 理解 大 数据 处 理 系统 过 程 中 感到 最 为 困惑 的 一 个 方面 。 
这 也 是 它 与 向 上 扩展 系统 架构 的 方法 区 别 最 大 的 地 方 。 大 型 的 向 上 扩展 的 服务 器 成 本 昂贵 的 一 个 
主要 原因 是 , 生产 商 要 投入 巨大 努力 来 减少 部 件 故障 给 系统 带 来 的 影响 。 即 便 是 低 端 服务 器 也 会 
有 和 宛 余 电源 ， 但 在 大 型 计算 机 机 箱 里 ， 多 个 CPU 安装 在 CPU 卡 上 ， 这 些 CPU 卡 又 通过 多 个 背 板 连 
接 至 内 存 插 权 和 存储 系统 。 大 型 计算 机 厂商 经 常 通过 各 种 形式 的 极端 方法 来 展示 其 产品 的 健壮 
性 ， 如 将 正在 运行 的 系统 部 件 直接 拔 出 ， 甚 至 用 枪 向 其 射击 。 如 果 系 统 构建 时 ， 设 计 者 考虑 到 了 
可 能 出 现 的 故障 并 保证 其 发 生 的 概率 在 可 接受 范围 内 ， 而 不 是 将 每 次 故障 作为 必须 消除 的 危机 ， 
将 会 出 现 完全 不 同 的 体系 结构 。 


4. 软件 智能 化 ， 硬 件 傻瓜 化 


如 果 我 们 希望 尽 可 能 地 灵活 使 用 硬件 集群 , 为 许多 并 行 工作 流程 提供 托管 服务 , 解决 方案 就 
是 为 软件 注入 智能 并 从 硬件 抽 离 智能 。 


在 这 种 模式 下 ， 硬 件 被 视 为 资源 的 集合 ， 由 软件 层 来 负责 向 硬件 分 配 特定 的 工作 任务 负载 。 
这 就 使 得 硬件 成 为 通用 的 ,并 且 价 格 较为 低廉 ， 更 易于 获得 。 同 时 ， 有 效 利用 硬件 的 功能 转移 到 
了 软件 ， 而 关于 如 何 有 效 执行 任务 的 知识 恰恰 贮存 在 软件 中 。 


5. 移动 处 理 程序 ， 而 非 移动 数据 


假设 需要 对 一 个 很 大 的 数据 集 ( 比如 1000 TB, 也 就 是 1PB ) 中 的 每 块 数据 执行 4 项 操作 。 下 
面 看 一 下 解决 上 述 问题 的 系统 的 不 同 实现 方法 。 


传统 的 基于 大 型 计算 机 的 向 上 扩展 方案 会 用 到 一 个 巨大 的 服务 器 , 它 连接 到 一 个 同样 令 人 印 
象 深刻 的 存储 系统 。 几 乎 可 以 肯定 , 该 系统 使 用 了 诸如 光纤 信道 之 类 的 技术 来 最 大 限度 地 提高 存 
储 带宽 。 该 系统 可 以 完成 上 述 任 务 ， 却 会 变 成 W/O 密集 型 系统 ; 即便 是 高 端 存储 交换 机 也 会 限制 
从 存储 系统 到 主机 的 数据 传输 速率 。 

另 一 种 方法 基于 之 前 提 到 的 集群 技术 , 该 方法 会 用 到 一 个 由 1000 台 机 器 组 成 的 集群 。 这 1000 
台 主 机 被 划分 为 4 个 象限 ， 每 个 象限 对 应 一 种 操作 。 每 台 主 机 都 存 有 1 TB 数据 并 负责 执行 四 项 操 
作 之 一 。 集 群 管理 软件 将 会 协调 数据 在 集群 间 的 流转 ， 确 保 每 块 数 据 都 经 过 4 个 处 理 过 程 。 当 每 
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块 数据 在 其 自身 驻 留 的 主机 上 进行 一 次 运算 之 后 ， 就 会 被 传送 到 其 他 三 个 象限 。 因 此 ， 这 个 数据 
处 理 任务 实际 上 消耗 了 3 PB 的 网 络 带 宽 。 


请 注意 ，CPU 处 理 能 力 提升 的 速度 已 经 超过 了 网 络 或 硬盘 技术 。 那 么 ， 难 道 这 些 是 解决 问 
题 的 最 好 办 法 吗 ? 最 近 的 经 验 表 明 ， 答案 是 否定 的 ， 另 一 种 替代 方法 是 移动 处 理 过 程 而 避免 移 
动 数据 。 使 用 刚才 提 到 的 集群 技术 ,但 不 要 分 阶段 处 理 数据 ， 而 是 让 1000 个 节点 中 的 每 个 节点 
对 其 存储 的 数据 执行 全 部 4 个 处 理 阶 段 。 如 果 幸 运 的 话 ， 此 时 只 需 将 数据 在 硬盘 上 流转 一 次 ， 
而 在 网 络 上 传输 的 将 是 二 进 制 程序 和 状态 报告 ， 二 者 相对 于 有 问题 的 实际 数据 集 来 讲 ， 真 是 小 
MILKE. 


如 果 一 个 有 着 1000 个 节点 的 集群 听 起 来 大 得 离谱 ,那么 想像 一 下 那些 用 于 大 数据 解决 方案 的 
现代 服务 器 的 构成 模块 。 每 台 这 种 单机 都 配 有 12 个 容量 为 1 TB 甚至 2 TB 的 硬盘 。 因 为 现代 处 理 器 
是 多 核 的 , 构建 一 个 由 50 个 节点 组 成 的 集群 并 非 难 事 , 这 个 集群 有 1 PB 的 存储 能 力 , 并 有 一 个 CPU 
专门 用 于 处 理 从 每 个 硬盘 传 出 的 数据 。 


6. 构建 应 用 程序 ， 而 非 基础 架构 


当 思 考 上 市 中 提 到 的 问题 时 ， 多 数 人 会 将 精力 集中 在 数据 迁移 和 数据 处 理 的 问题 上 。 但 是 ， 
曾经 搭建 过 这 种 系统 的 人 就 会 知道 ， 大 部 分 精力 却 是 用 在 设计 一 些 不 太 明 显 的 因素 的 处 理 逻 辑 
上 ， 如 任务 调度 、 异 常 处 理 、 协 调配 合 等 。 


我 们 必须 实现 一 些 机 制 来 确定 在 哪 台 主机 上 执行 处 理 任务 、 实 现 处 理 过 程 、 将 子 结果 合并 为 
整体 结果 , 并 且 无 法 从 以 前 的 模型 中 获得 多 少 帮助 。 我 们 需要 明确 地 管理 数据 分 区 , 这 只 是 用 
个 难题 换 来 了 另 一 个 难题 。 


上 述 问题 与 我 们 将 强调 的 最 新 研究 趋势 相关 : 透明 处 理 集群 的 大 部 分 结构 问题 , 让 开发 者 专 
注 于 思考 业务 问题 。 基 于 明确 定义 的 系统 接口 , 开发 者 可 以 创建 特定 业务 领域 的 应 用 程序 ; 提供 
此 类 接口 的 框架 将 是 开发 者 和 系统 效率 的 最 佳 组 合 。 




























































































1.1.4 Hadoop 


得 知 上 述 方法 都 是 Hadoop 的 主要 特性 之 后 ， 思 维 续 密 的 读者 并 不 会 感到 惊讶 。 但 直到 现在 ， 
我 还 没有 准确 地 回答 什么 是 Hadoop。 




















1. 感谢 Google 


Hadoop 起 源 于 Google。Google 公 司 于 2003 年 和 2004 年 发 表 了 两 篇 描述 Google 技 术 的 学 术 论 
文 :谷歌 文件 系统 ( GFS ) ( http://research.google.com/archive/gfs.html ) 和 MapReduce ( http://research. 
google.com/archive/mapreduce.html )。 它 们 提供 了 一 个 高 效 处 理 极 大 规模 数据 的 平台 。 
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2. 感谢 Doug 


与 此 同时 , Doug Cutting 正 在 研究 开源 的 网 页 搜索 引擎 Nutch。 他 一 直 致 力 于 系统 原理 的 工作 ， 
当 Google 的 GFS 和 MapReduce 论 文 发 表 后 ,引起 了 他 的 强烈 共鸣 。Doug 开 始 着 手 实现 这 些 Google 
系统 , 不 久之 后 , Hadoop 诞 生 了 。Hadoop 早 期 以 Lucene 子 项 目的 形式 出 现 , 不 久之 后 成 了 Apache 
开源 基金 会 的 顶级 项 目 。 因 此 ， 从 本 质 上 来 讲 ，Hadoop 是 一 个 实现 了 MapReduce 和 GEFS 技 术 的 开 
源 平台 ， 它 可 以 在 由 低 成 本 硬件 组 成 的 集群 上 处 理 极 大 规模 的 数据 集 。 


3. 感谢 Yahoo 


2006 年 ，Yahoo 雇 用 了 Doug Cutting 并 迅速 成 为 Hadoop 项 目 最 重要 的 支持 者 之 一 。 除 了 经 常 
推广 一 些 全 球 最 大 规模 的 Hadoop 部 署 之 外 , Yahoo 人 允许 Doug 和 其 他 工程 师 们 在 受 雇 于 Yahoo 期 间 , 
致力 于 Hadoop 的 工作 。 同 时 ，Yahoo 也 贡献 了 一 些 公司 内 部 开发 的 Hadoop 改 进 和 扩展 程序 。 尽 管 
Doug 目 前 已 经 转 到 Cloudera ( 另 一 家 大 力 支持 Hadoop 团 体 的 创业 公司 ) 任职 ，Yahoo 的 Hadoop 团 
队 已 经 分 拆 为 名 叫 Hortonworks 的 创业 公司 ，Yahoo 依 然 是 Hadoop 的 一 个 主要 支持 者 。 
































4. Hadoop 的 组 成 部 分 


作为 一 个 顶级 项 目 ，Hadoop 项 目 包含 许多 组 件 子 项 目 。 本 书 中 将 讨论 其 中 几 个 子 项 目 ， 最 
主要 的 两 个 子 项 目 分 别 为 Hadoop 分 布 式 文件 系统 ( HDFS ) 和 MapReduce。 这 两 个 子 项 目 是 对 
Google 特 有 的 GFS 和 MapReduce 的 直接 实现 。 本 书 将 详细 讨论 HDFS 及 MapReduce, 但 现在 最 好 将 
它们 视 为 一 对 独立 而 又 互补 的 技术 。 


HDFS 是 一 个 可 以 存储 极 大 数据 集 的 文件 系统 ， 它 是 通过 向 外 扩展 方式 构建 的 主机 集群 。 它 
有 着 独特 的 设计 和 性 能 特点 ， 特 别 是 ，HDFS 以 时 延 为 代价 对 吞吐 量 进行 了 优化 ， 并 且 通 过 副本 
替换 宛 余 达到 了 高 可 靠 性 。 


MapReduce 是 一 个 数据 人 处理 范式 , 它 规范 了 数据 在 两 个 处 理 阶 段 ( 被 称 为 Map 和 Reduce ) 的 
输入 和 输出 ， 并 将 其 应 用 于 任意 规模 的 大 数据 集 。MapReduce 与 HDFS 紧 密 结合 ， 确 保 在 任何 情 
况 下 ，MapReduce 任 务 直 接 在 存储 所 需 数据 的 HDFS 节 点 上 运行 。 


5. 公共 构建 模块 
HDFS 和 MapReduce 都 体现 了 一 些 上 一 节 描 述 的 体系 原则 。 特 别 是 : 


O 都 是 面向 廉价 服务 右 ( 也 就 是 说 ， 中 低 端 ) 集群 设计 的 ; 

口 都 是 通过 增加 更 多 的 服务 器 来 实现 系统 扩展 〈 向 外 扩展 汶 

口 都 包含 了 检测 和 处 理 故 障 的 机 制 ; 

a 都 透明 地 提供 了 许多 服务 ， 从 而 使 用 户 可 以 更 专注 于 手头 的 问题 ; 

a 都 采用 了 同样 的 架构 ， 其 中 驻 留 在 物理 服务 右上 的 软件 集群 控制 着 系统 运行 的 各 个 方面 。 
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6. HDFS 


HDFS ( Hadoop Distributed File System，Hadoop 分 布 式 文件 系统 ) 与 之 前 所 见 过 的 大 部 分 文 
件 系统 都 不 太一 样 。HDFS 是 一 个 不 具备 POSIX 兼 容 性 的 文件 系统 ， 这 基本 上 意味 着 它 不 能 提供 
像 普通 文件 系统 一 样 的 保障 。 它 也 是 一 个 分 布 式 文件 系统 , 这 意味 着 它 在 众多 节点 上 扩大 了 存储 ; 
在 某 些 年 以 前 的 技术 中 ， 缺 乏 这 种 高 效 的 分 布 式 文件 系统 是 一 个 限制 性 因素 。HDFS 的 主要 特点 
如 下 所 示 。 


口 HDFS 通 常 以 最 小 64 MB 的 数据 块 存 储 文件 , 这 比 之 前 多 数 文件 系统 中 的 4KB~32 KB 分 块 
大 得 多 。 

口 HDFS 在 时 延 的 基础 上 对 吞吐 量 进 行 了 优化 ， 它 能 够 高 效 处 理 对 大 文件 的 读 请 求 流 ， 但 不 
擅长 对 众多 小 文件 的 定位 请 求 。 

口 HDFS 对 普遍 的 “一 次 写 人 ， 多 次 读 取 ” 的 工作 负载 进行 了 优化 。 

口 每 个 存储 节点 上 运行 着 一 个 称 为 DataNode 的 进程 ， 它 管理 着 相应 主机 上 的 所 有 数据 块 。 

这 些 存储 节点 都 由 一 个 称 为 NameNode 的 主 进程 来 协调 ， 该 进程 运行 于 一 台独 立 主 机 上 。 

a 与 磁盘 阵列 中 设置 物理 元 余 来 处 理 磁 盘 故 障 或 类 似 策 略 不 同 ，HDFS 使 用 副本 来 处 理 故 
障 。 每 个 由 文件 组 成 的 数据 块 存储 在 集群 中 的 多 个 节点 ，HDFS 的 NameNode 不 断 地 监视 
各 个 DataNode 发 来 的 报告 ， 以 确保 发 生 故 障 时 ， 任 意 数据 块 的 副本 数量 都 大 于 用 户 配置 
的 复制 因子 。 否 则 ，NameNode 会 在 集群 中 调度 新 增 一 个 副本 。 



























































7. MapReduce 


虽然 MapReduce 技 术 相 对 较 新 , 但 它 建立 在 数学 和 计算 机 科学 的 众多 基础 工作 之 上 , 尤其 是 
适用 于 每 个 数据 元 素 的 数据 操作 的 描述 方法 。 实际 上 , map 和 reduce 函 数 的 概念 直接 来 自 于 函数 
式 编 程 语言 。 在 函数 式 编程 语言 中 ，map 和 reduce 函 数 被 用 于 对 输入 数据 列表 进行 操作 。 


另 一 个 关键 的 基本 概念 是 “分 而 治之 ”。 这 个 概念 的 基本 原则 是 ， 将 单个 问题 分 解 成 多 个 独 
立 的 子 任 务 。 如 果 多 个 子 任务 能 够 并 行 执行 ， 这 种 方法 更 为 强大 。 在 理想 情况 下 ， 一 个 需要 运行 
1000 分 钟 的 任务 可 以 通过 分 解 成 1000 个 并 行 的 子 任务 ， 在 1 分 钟 内 即 可 完成 。 


MapReduce 是 一 个 基于 上 述 原理 的 处 理 范式 ， 它 实现 了 从 源 数据 集 到 结果 数据 集 的 一 系列 
转换 。 在 最 简单 的 情况 下 , 作业 的 输入 数据 作为 map 函数 的 输入 ,所 得 到 的 临时 数据 作为 reduce 
函数 的 输入 。 开 发 人 员 只 需 定义 数据 转换 形式 , Hadoop 的 MapReduce 作 业 负 责 并 行 地 对 集群 中 的 
数据 实施 所 需 转 换 。 虽然 基本 的 想法 可 能 并 无 太 大 新 意 , 但 Hadoop 的 一 个 主要 优势 在 于 它 如 何 将 
这 些 想 法 变 成 一 个 精心 设计 的 可 用 平台 。 

传统 的 关系 型 数据 库 适 用 于 符合 定义 模式 的 结构 化 数据 。 与 之 不 同 ，MapReduce 和 Hadoop 


在 半 结 构 化 或 非 结 构 化 数据 上 表现 最 好 。 与 符合 刚性 模式 的 数据 不 同 , MapReduce 和 Hadoop 仅 要 
求 将 数据 以 一 系列 键 值 对 的 形式 提供 给 map 函 数 。map 函 数 的 输出 是 其 他 键 值 对 的 集合 ，reauce 
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函数 收集 汇总 最 终 的 结果 数据 集 。 


Hadoop 为 nap 和 reduce 函数 提供 了 一 个 标准 规范 ( 即 接口 )， 上 述 规范 的 具体 实现 通常 被 称 
为 mapper 和 reducer。 一 个 典型 的 MapReduce 作 业 包 括 多 个 mapper 和 reducer， 通 常 这 些 mapper 和 
reducer 并 不 是 很 简单 。 开 发 人 员 将 精力 集中 于 表达 从 数据 源 到 结果 数据 集 的 转化 关系 上 ， 而 
Hadoop 框 架 会 管理 任务 执行 的 各 个 方面 : 并 行 处 理 ， 协 调配 合 ， 等 等 。 


最 后 一 点 可 能 是 Hadoop 最 重要 的 一 个 方面 。Hadoop 平 台 负 责 执行 数据 处 理 的 各 个 方面 。 在 
用 户 定 义 了 任务 的 关键 指标 后 ， 其 余 事情 都 变 成 了 系统 的 责任 。 更 重要 的 是 ， 从 数据 规模 的 角度 
来 看 ， 同 一 个 MapReduce 作 业 适 用 于 存储 在 任意 规模 集群 上 的 任意 大 小 的 数据 集 。 如 果 要 处 理 的 
是 单 台 主机 上 的 1 GB 数据 ，Hadoop 会 相应 地 安排 处 理 过 程 。 即 便 要 处 理 的 是 托管 在 超过 1000 台 
机 器 上 的 1PB 数 据 ，Hadoop 依 然 同 样 工作 。 它 会 确定 如 何 最 高 效 地 利用 所 有 主机 进行 工作 。 从 用 
户 的 角度 来 看 ,实际 数据 和 集群 的 规模 是 透明 的 , 除了 处 理 作 业 所 花费 的 时 间 受 影响 外 ,它们 不 
会 改变 用 户 与 Hadoop 的 交互 方式 。 


8. 组 合 使 用 效果 更 佳 


我 们 有 可 能 已 经 体会 到 了 HDFS 和 MapReduce 各 自 的 价值 , 但 当 它 们 组 合 使 用 时 威力 更 强大 。 
作为 一 个 大 规模 数据 存储 平台 ，HDFS 并 非 必须 与 MapReduce 配 套 使 用 。 尽 管 MapReduce 可 以 从 
HDFS 之 外 的 数据 源 读 取 数据 ， 并 且 对 这 些 数 据 执行 的 处 理 操 作 与 HDFS 是 一 致 的 ， 但 截至 目前 ， 
将 HDFS 和 MapReduce 组 合 使 用 是 最 为 常见 的 情况 。 


当 执 行 MapReduce 作 业 时 ，Hadoop 需 要 决定 在 哪 台 主 机 执行 代码 才能 最 高 效 地 处 理 数据 集 。 
如 果 MapReduce 集 群 中 的 所 有 主机 从 单个 存储 主机 或 存储 阵列 获取 数据 ,在 很 大 程度 上 ,在 哪 台 
主机 执行 代码 并 不 重要 ， 因 为 存储 系统 是 一 个 会 引发 竞争 的 共享 系统 。 但 如 果 使 用 HDFS 作 为 存 
储 系统 ， 基 于 移动 数据 处 理 程序 比 迁 移 数据 本 身 成 本 更 低 的 原则 ，MapReduce 可 以 在 目标 数据 的 
存储 节点 上 执行 数据 处 理 过程 。 


最 常见 的 Hadoop 部 署 模型 是 将 HDFS 和 MapReduce 集 群 部 署 在 同一 组 服务 器 上 。 其 中 每 台 服 
务 器 不 仅 承 载 了 待 处 理 数据 及 管理 这 些 数据 的 HDFS 组 件 ， 同 时 也 承载 了 调度 和 执行 数据 处 理 过 
程 的 MapReduce 组 件 。 当 Hadoop 接 收 到 作业 后 ， 它 尽 可 能 对 驻 留 在 主机 上 的 数据 调度 进行 优化 ， 
达到 网 络 流 量 最 小 化 和 性 能 最 大 化 的 目标 。 


回想 一 下 以 前 的 例子 ， 如 何 对 分 布 在 1000 台 服务 器 上 的 1 PB 数 据 执行 4 个 步 又 的 处 理 任务 。 
MapReduce 模 型 ( 以 一 种 稍微 简化 和 理想 化 的 方式 ) 对 HDFS 中 每 台 主机 上 的 每 块 数据 执行 map 
函数 定义 的 处 理 操作 ， 随 后 在 =eauce 函 数 中 ， 复 用 集群 以 收集 各 个 主机 的 结果 并 转化 为 最 终 的 
结果 集 。 


Hadoop 的 部 分 挑战 在 于 ， 如 何 将 单个 问题 分 解 成 map 函 数 和 reduce 函 数 的 最 佳 组 合 。 前 述 
方法 只 适用 于 4 阶段 处 理 链 可 独立 应 用 于 每 个 数据 元 素 的 情况 。 在 后 续 章 节 将 会 看 到 ， 有 时 要 使 
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用 多 个 MapReduce 作 业 ， 其 中 某 个 作业 的 输出 将 作为 下 一 个 作业 的 输入 。 i 
9. 公共 架构 
正如 之 前 所 提 到 的 ，HDFS 和 MapReduce 软 件 集群 有 着 下 列 共 同 特点 。 


口 采用 了 相同 的 体系 结构 ， 用 专门 的 主 节 点 对 工作 节点 集群 进行 管理 。 

OQ 每 种 情景 的 主 节点 (HDFS 的 主 节点 是 NameNode，MapReduce 的 主 节点 是 JobTracker ) 监 

视 集 群 的 运行 状况 并 处 理 故 障 ， 处 理 方式 包括 移 走 数据 块 或 者 重新 调度 失败 的 作业 。 

a 每 台 服 务 器 上 的 进程 (HDFS 的 进程 是 DataNode，MapReduce 的 进程 是 TaskTracker ) 负责 
在 物理 主机 上 执行 任务 ， 包 括 从 NameNode 或 者 JobTracker 接 收 指令 和 向 其 报告 健康 状态 
和 运行 状况 。 

作为 一 个 小 的 术语 点 ， 主 机 或 服务 器 通常 指 的 是 承载 各 种 Hadoop 组 件 的 物理 硬件。 节点 指 

的 是 作为 集群 组 成 部 分 的 软件 部 件 。 


10. 优势 与 劣势 


与 其 他 工具 一 样 ， 弄 清楚 在 什么 情况 下 选择 使 用 Hadoop 解 决 面临 的 问题 非常 重要 。 本 书 大 
部 分 内 容 会 在 之 前 大 数据 处 理 技术 综述 的 基础 上 强调 Hadoop 的 优势 , 但 在 早期 阶段 , 理解 在 什么 
情况 下 Hadoop 并 非 最 好 的 选择 也 同样 重要 。 


Hadoop 选 用 的 体系 架构 使 其 成 为 现在 这 样 灵活 且 可 扩展 的 数据 处 理 平台 。 但 是 , 与 选择 大 
多 数 架 构 或 设计 类 似 ， 必 须 理 解 一 些 由 此 引发 的 后 果 。 其 中 最 主要 的 是 ，Hadoop 是 一 个 批量 处 
理 系 统 。 当 对 一 个 大 数据 集 执行 作业 时 ，Hadoop 框 架 会 不 断 进 行 数 据 转换 直到 生成 最 终结 果 。 
由 于 采用 了 大 的 集群 ，Hadoop 会 相对 快速 地 生成 结果 , 但 事实 上 , 结果 生成 的 速度 还 不 足以 满 
足 缺 乏 耐 心 的 用 户 的 需求 。 因 此 ,单独 的 Hadoop 不 适用 于 低 时 延 查 询 , 例如 网 站 、 实 时 系统 或 
者 类 似 查询 。 

当 使 用 Hadoop 人 处理 大 数据 集 时 ， 安 排 作业 、 确 定 每 个 节点 上 运行 的 任务 及 其 他 所 有 必需 的 
内 务 管理 活动 需要 的 时 间 开 销 在 整个 作业 执行 时 间 中 是 微不足道 的 。 但 是 ， 对 于 小 数据 集 而 言 ， 
上 述 执行 开销 意味 着 ， 即 使 是 简单 的 MapReduce 作 业 都 可 能 花费 至 少 10 秒 钟 。 























































































































HBase 是 广义 Hadoop 家 族 的 另 一 位 成 员 ， 它 是 另 一 种 谷歌 技术 的 开源 实现 。 
它 提供 了 一 个 基于 Hadoop 的 非 关 系 型 数据 库 ， 使 用 了 多 种 方法 提供 低 延 退 的 查 
询 服务 。 




















但 是 ， 难 道 Google 和 Yahoo 不 是 Hadoop 最 强大 的 支持 者 吗 ? 在 它们 的 网 站 中 ， 难 道 响应 时 间 
不 是 最 重要 的 吗 ? 答案 是 肯定 的 , 这 种 现象 强调 了 一 个 重要 方面 , 即 如 何 将 Hadoop 与 其 他 技术 结 
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合 起 来 发 挥 共同 优势 。 在 一 篇 论文 里 C http:/research.google.com/archive/googlecluster.html )， 谷 歌 
简 述 了 他 们 如 何 实时 地 使 用 MapReduce: 在 网 络 候 虫 获 取 到 更 新 的 网 页 数据 后 ，MapReduce 对 庞 
大 的 数据 集 进行 人 处理， 并 基于 此 生成 网 页 索引 ， 这 些 检索 被 一 组 MySQL 服 务 器 用 于 为 终端 用 户 
的 搜索 请 求 提供 服务 。 











1.2 ”基于 Amazon Web Services 的 云 计算 


云 计 算是 本 书 介绍 的 另 一 个 技术 领域 。 书 中 以 Amazon Web Services 作 为 云 计算 平台 的 例子 ， 
介绍 它 的 一 些 使 用 实例 。 但 首先 ， 我们 需要 了 解 一 些 围绕 云 计算 的 炒作 和 流行 语 。 











1.2.1 云 太 多 了 


云 计算 已 经 成 为 一 个 被 滥用 的 术语 , 可 以 说 , 云 计算 概念 的 滥用 使 其 面临 变 得 毫 无 意义 的 风 
险 。 因 此 , 在 本 书 中 使 用 这 个 术语 的 时 候 , 务必 清楚 并 齐 慎 表达 我 们 的 真实 意思 。 云 有 两 个 主要 
的 特点 : 既是 一 种 新 的 可 选 架 构 ， 也 是 一 种 解决 成 本 的 不 同方 法 。 























1.2.2 第 三 种 方法 


我 们 已 经 讨论 了 扩展 数据 处 理 系 统 的 两 种 方法 : 向 上 扩展 和 向 外 扩展 。 但 是 迄今 为 止 , 前 述 
讨论 想当然 地 认为 无 论 哪 一 种 方法 的 实现 ,都 需要 系统 开发 团队 购买 、 拥 有 、 安 装 并 管理 物理 硬 
件 。 云 计算 提供 了 第 三 种 办 法 : 用 户 把 应 用 程序 放 到 云端 ， 让 供应 商 处 理 系 统 扩 展 的 问题 。 

当然 , 这 并 不 总 是 那么 简单 。 但 是 对 于 许多 云 服 务 来 讲 , 这 种 模式 才 是 真正 的 革命 。 用 户 根 
据 一 些 公开 的 指南 或 者 接口 开发 软件 , 然后 把 它 部 署 到 云 平 台 , 并 允许 它 在 成 本 允许 的 前 提 下 根 
据 需要 扩展 服务 。 但 是 由 于 扩展 系统 通常 涉及 成 本 ， 所 以 这 是 一 个 引 人 关 注 的 命题 。 


























1.2.8 不 同类 型 的 成 本 


这 种 云 计 算 方 式 同时 也 改变 了 系统 硬件 的 付费 方式 。 通过 降低 硬件 基础 设施 成 本 , 构建 能 承 
载 数 干 甚至 数 百 万 客户 的 平台 , 云 服务 提供 商 借 此 获得 规模 经 济 ， 同 时 所 有 用 户 都 从 中 受益 。 作 
为 使 用 者 , 不 仅 有 人 和 蔡 你 操心 难度 较 大 的 工程 问题 ,如 扩展 系统 的 问题 ,而 且 你 可 以 根据 需要 的 
负载 付费 ， 而 不 必 基 于 可 能 需要 的 最 大 工作 负载 来 确定 系统 规模 。 相 反 ， 用 户 获 得 了 弹性 系统 带 
来 的 好 处 ， 可 以 根据 工作 负载 的 需要 使 用 或 多 或 少 的 资源 。 


下 面 这 个 例子 可 以 说 明 这 一 点 。 因 为 要 计算 税 费 和 工资 数据 , 许多 公司 的 财务 组 在 月 底 的 工 
作 量 较 大 ， 而 且 通 常年 底 的 数据 处 理 任务 会 更 大 。 如 果 需 要 设计 一 个 这 种 系统 ， 购 买 多 少 硬 件 最 
为 合适 ? 如果 购 买 的 硬件 仅 够 处 理 日 常 工作 量 , 系统 可 能 会 在 月 底 陷 和 人 困境 , 真正 的 麻烦 可 能 出 
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现 于 年 底 处 理 任 务 运 转 起 来 的 时 候 。 如 果 以 月 底 的 工作 量 来 度量 系统 规模 , 系统 的 部 分 硬件 将 会 
在 一 年 的 大 部 分 时 间 处 于 闲置 状态 , 而且 仍然 可 能 在 处 理 年 底 任务 的 时 候 陷 人 困境 。 如 果 根 据 年 
底 的 工作 量 来 确定 系统 规模 ,在 一 年 的 其 余 时 间 里 ,系统 会 有 大 量 的 闲置 产能 。 除 了 考虑 购买 硬 
件 的 成 本 , 还 要 考虑 托管 和 运行 成 本 ( 服务 器 的 用 电量 可 能 占 到 其 生命 周期 中 成 本 的 一 大 部 分 )， 
你 基本 上 浪费 了 大 量 的 金钱 。 


云 计 算 按 需 服务 的 特性 可 让 用 户 的 应 用 程序 在 一 个 规模 不 大 的 硬件 上 起 步 ,然后 随 着 时 间 的 
发 展 , 向 上 或 向 下 动态 调整 其 硬件 规模 。 基 于 按 需 付费 的 模式 , 用户 成 本 随 着 其 硬件 使 用 情况 而 
变化 。 用 户 拥 有 处 理 负载 的 能 力 ， 却 无 需 购买 足够 处 理 峰 值 负 载 的 硬件 。 


这 种 模型 更 微妙 的 特性 在 于 , 它 大 大 降低 了 企业 发 布 在 线 服务 的 进入 成 本 。 众 所 周知 , 一 个 
无 法 满足 需求 并 遗 遇 性 能 问题 的 新 的 热点 服务 , 将 很 难 恢 复 其 发 展 势头 和 重新 引起 用 户 兴 趣 。 例 
如 ， 在 2000 年 , 一 个 企业 要 想 成 功 地 推出 新 品 , 需要 在 发 布 当天 落实 到 位 足够 的 容量 来 应 对 用 户 
流量 的 激增 ,， 这 既是 他 们 所 期 望 的， 同时 也 是 他 们 不 愿 看 到 的 。 将 物理 单元 的 成 本 考虑 在 内 ,在 
产品 发 布 上 很 容易 就 会 花 掉 数 百 万 元 。 


A, 基于 云 计算 , 最 初 的 基础 设施 成 本 甚至 可 以 低 至 每 月 几 十 或 几 百 美元 , 而 且 这 只 在 需 
要 流量 的 时 候 才 会 有 所 增加 。 

































































1.2.4 AWS: Amazon 的 弹性 架构 


Amazon Web Services ( AWS ) 是 Amazon 提供 的 一 整套 云 计算 服务 。 本 书 将 会 用 到 其 中 几 
种 服务 。 


1. 弹性 计算 云 (EC2 ) 


Amazon 的 弹性 计算 云 ( EC2, 参见 http://aws.amazon.com/ec2/ ), 其 本 质 上 是 一 个 弹性 服务 器 。 
在 注册 AWS 和 EC2 之 后 ,只 需 赁 个 人 信用 卡 的 有 关 信 息 即 可 获得 专用 虚拟 机 的 访问 权限 , 在 这 些 
服务 器 上 可 以 很 容易 地 运行 多 种 操作 系统 ， 包 括 Windows 和 Linux 的 许多 变种 。 


需要 更 多 的 服务 器 吗 ? 只 需 启 动 更 多 的 机 器 。 需 要 更 强大 的 服务 器 吗 ? 只 需 切换 到 提供 更 高 
规格 的 服务 器 上 ， 当 然 使 用 成 本 也 随 之 上 升 。 不 仅 如 此 ，EC2 提 供 了 一 系列 免费 服务 ， 包 括 负 载 
均衡 器 、 项 态 耻 地 址 、 额 外 的 高 性 能 虚拟 磁盘 驱动 器 ， 和 其 他 更 多 服务 。 


2. 简单 存储 服务 (S3) 

Amazon 的 S3( Simple Storage Service， 简 单 存储 服务 ， 参 见 http://aws.amazon.com/s3/ ) 是 一 
种 提供 简单 键 值 存储 模式 的 存储 服务 。 利 用 网 络 、 命 令 行 或 者 编程 接口 创建 对 象 ， 这 些 对 象 可 以 
是 从 文本 文件 到 图 片 到 MP3 的 一 切 对 象 。 基 于 层次 模型 ， 用 户 能 够 在 S3 中 存储 并 获取 数据 。 在 这 
个 模型 中 , 用户 可 以 创建 存放 对 象 的 桶 (bucket )。 每 个 桶 都 有 一 个 唯一 标识 符 , 并 且 桶 中 的 每 个 
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对 象 都 是 唯一 命名 的 。 这 种 简单 的 策略 成 就 了 一 个 非常 强大 的 服务 ，Amazon 负责 数据 的 可 靠 性 
和 可 用 性 ， 以 及 服务 扩展 等 各 个 方面 。 


3. 弹性 MapReduce (EMR) 


Amazon 的 弹性 MapReduce (EMR, 参见 http://aws.amazon.com/elasticmapreduce/ )， 从 根本 上 
来 讲 是 以 EC2 和 S3 为 基础 的 云端 Hadoop。 同 样 地 ， 使 用 多 种 接口 (CLI，Web 控 制 台 或 API )， 用 
户 可 定义 一 些 Hadoop 工 作 流 属性 ， 例 如 所 需 的 Hadoop 主 机 数 和 源 数 据 的 位 置 等 。 EMR 提 供 了 
MapReduce 作 业 的 Hadoop 实 现代 码 ， 之 后 虚拟 的 开始 按钮 被 按 下 。 


在 其 最 令 人 印象 深刻 的 模式 中 ，EMR 可 以 从 S3 获 取 源 数据 ， 利 用 基于 EC2 创 建 的 Hadoop 集 
群 来 处 理 这 些 数据 , 将 结果 返回 到 S3, 然后 终止 Hadoop 集 群 及 承载 它 的 EC2 虚 拟 机 的 运行 。 当 然 ， 
每 个 服务 都 是 有 成 本 的 ， 通常 以 存储 的 数据 量 ( 以 GB 为 单位 ) 和 服务 器 使 用 时 间 为 计 费 基 准 ， 
但 无 需 专用 硬件 即 可 获得 如 此 强大 的 数据 处 理 能 力 ， 其 功能 真 的 是 强大 。 























1.2.5 ”本 书 内 容 


KPF, 我 们 将 学 习 如 何 编写 MapReduce 程 序 做 一 些 重要 的 数据 转换 ,以 及 如 何在 本 地 管理 
和 AWS 托 管 的 Hadoop 和 集群 上 运行 MapReduce 程 序 。 


我 们 不 仅 会 把 Hadoop 视 为 执行 MapReduce 作 业 的 引擎 ， 同 时 也 会 探索 将 Hadoop 融 入 企业 其 
他 基础 设施 和 系统 的 方法 。 我 们 会 看 到 一 些 共 同 的 结合 点 , 如 从 Hadoop 和 关系 型 数据 库 中 获取 数 
据 ， 以 及 如 何 使 Hadoop 看 起 来 更 像 是 一 个 关系 数据 库 。 


双管齐下 


本 书 不 会 将 讨论 局 限 在 EMR 或 Amazon EC2 托 管 的 Hadoop。 我 们 在 讨论 如 何 创 建 和 管理 
本 地 Hadoop 和 集群 ( 在 Ubuntu Linux 系 统 上 ) 的 同时 ， 也 会 演示 如 何 通过 EMR 将 处 理 过 程 推 人 
云端 。 

这 样 做 的 原因 来 自 两 方面 : 首先 ， 虽 然 EMR 使 Hadoop 更 易 访 问 , 但 只 有 当 手 工 管理 集群 时 ， 
才能 充分 体会 Hadoop 技 术 的 各 项 特点 。 尽 管 在 手工 模式 下 也 可 以 使 用 EMR ， 然 而 通常 使 用 本 地 
集群 来 进行 学 习 研 究 。 其 次 ， 使 用 托管 Hadoop 还 是 本 地 Hadoop 并 不 是 一 个 非 此 即 彼 的 选择 ， 有 
时 用 户 会 担忧 对 一 个 独立 的 外 部 供应 商 的 过 度 依赖 ， 所 以 许多 企业 混合 使 用 本 地 和 云 托管 的 
Hadoop 服 务 。 从 实践 来 讲 , 在 本 地 进行 开发 和 小 规模 测试 更 为 方便 , 然后 再 根据 产品 规模 将 其 部 
署 到 云端 。 


在 后 面 的 一 些 章节 中 ， 我 们 会 讨论 与 Hadoop 组 合 使 用 的 其 他 产品 。 在 这 部 分 内 容 中 ， 本 书 
只 给 出 一 些 本 地 集群 的 例子 ， 因 为 无 论 Hadoop 部 署 在 何 处 ， 工 作 原理 都 是 不 变 的 。 
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1.3 小结 

本 章 介 绍 了 关于 大 数据 、Hadoop 和 云 计算 的 大 量 知识 。 

专门 探讨 了 大 数据 的 出 现 以 及 它 对 数据 处 理 方法 及 系统 架构 的 改变 , 这 一 变革 几乎 可 以 让 任 
何 组 织 实现 曾经 昂贵 得 令 人 望而却步 的 技术 。 

本 章 还 回顾 了 ， 作 为 一 个 灵活 而 又 功能 强大 的 海量 数据 处 理 平 台 ，Hadoop 的 产生 历史 和 构 
建 方式 。 我 们 还 研究 了 云 计算 提供 的 另 一 种 系统 架构 方式 。 这 种 方式 从 前 期 巨额 成 本 和 直接 的 
物理 责任 转变 为 按 需 付费 模式 ， 并 依赖 云 服 务 提供 商 来 提供 人 硬件、 管理 服务 和 扩展 系统 。 我 们 


也 明白 了 什么 是 Amazon Web Services， 以 及 弹性 MapReduce 服 务 怎样 利用 其 他 AWS 服 务实 现 云 
端 Hadoop。 


我 们 还 讨论 了 本 书 的 目标 ， 以 及 如 何 学 习 本 地 Hadoop 和 AWS 托 管 的 Hadoop。 


现在 ,我 们 已 经 掌握 了 Hadoop 的 基础 知识 ， 并 了 解 了 这 项 技术 的 起 源 和 优势 。 我 们 需要 动 
手 让 系统 运行 起 来 ， 这 也 是 第 2 章 将 要 做 的 : 安装 并 运行 Hadoop。 














第 2 章 








既然 我 们 已 经 研究 了 大 数据 处 理 带 来 的 机 遇 和 挑战 ， 并 且 了 解 了 Hadoop 
的 优势 所 在 ， 现 在 就 来 安装 并 运行 Hadoop 吧 。 


本 章 包括 以 下 内 容 : 


口 学 习 如 何在 本 地 Ubuntu 主机 安装 并 运行 Hadoop ; 

口 运行 一 些 Hadoop 程 序 实例 并 熟悉 Hadoop 系 统 ; 

口 注册 使 用 Amazon Web Services 产 品 ( 如 EMR ) 所 需要 的 账号 ; 
口 在 Elastic MapReduce 上 创建 符合 需求 的 Hadoop 集 群 ; 

口 研究 本 地 Hadoop 集 群 与 托管 Hadoop 集 群 的 关键 区 别 。 




















2.1 基于 本 地 Ubuntu 主机 的 Hadoop 系统 


为 了 研究 云 外 的 Hadoop ， 本 节 将 以 一 台 或 多 台 Ubuntu 主 机 为 例 。 一 台 主 机 (一 台 物 理 计算 
机 或 虚拟 机 ) 即 可 满足 运行 Hadoop 所 有 组 件 和 研究 MapReduce 的 需要 。 然 而 , 企业 产品 集群 很 可 
能 由 多 人 台 机 器 组 成 , 所 以 如 果 能 在 部 署 于 多 台 主 机 的 Hadoop 和 集群 进行 开发 , 读者 将 获得 很 好 的 经 
验 。 然 而 ， 对 于 起 步 而 言 ， 单 台 主 机 就 足够 了 。 


我 们 将 讨论 的 内 容 并 非 仅 限于 Ubuntu 操作 系统 ，Hadoop 能 够 在 任何 Linux 操 作 系 统 上 运行 。 
很 明显 , 如 果 读 者 使 用 了 Ubuntu 之 外 的 操作 系统 , 可 能 需要 修改 一 下 环境 配置 , 但 区 别 应 该 不 大 。 














其 他 操作 系统 


Hadoop 在 其 他 平台 上 运行 效果 良好 。Windows 和 Mac OS X 都 是 开发 者 的 热门 选择 。Windows 
只 能 作为 Hadoop 的 开发 平台 ， 而 Mac OS X 没 有 得 到 Hadoop 的 正式 支持 。 


如 果 选 择 使 用 这 类 平台 ， 人 情况 将 与 使 用 其 他 Linux 发 行 版 本 相 类 似 。 在 这 两 个 平台 上 使 用 
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Hadoop 处 理工 作 任务 的 方法 是 相同 的 ,但 需要 使 用 操作 系统 自 带 的 特定 机 制 设 置 环境 变量 和 类 似 
任务 。Hadoop FAQ 包 含 一 些 其 他 平台 的 信息 ， 如 果 读 者 打算 在 其 他 平台 运行 Hadoop， 应 当 首 先 
参考 Hadoop FAQ (参见 http://wiki.apache.org/hadoop/FAQ ) 解决 相关 问题 。 




















2.2 ”实践 环节 : 检查 是 否 已 安装 JDK 

Hadoop 是 用 Java 实 现 的 ， 所 以 需要 首先 在 Ubuntu 主机 上 安装 最 新 的 Java 开 发 工具 包 (JDK )。 
执行 下 列 步 骤 检 查 JDK 是 否 可 用 : 

(1) 首先 ， 打 开 一 个 终端 并 输入 以 下 内 容 来 检查 JDK 是 否 可 用 : 


$ javac 
$ java -version 


(2) 如 果 上 述 命令 返回 “不 存在 这 样 的 文件 或 路 径 ” 或 者 类 似 的 错误 ， 或 者 第 二 个 命令 
“打开 JDK” 的 提示 ， 很 可 能 需要 下 载 完整 的 JDK。JDK 可 以 从 Oracle 下 载 页 面 获得 ， 地 


t9 


布 的 版 本 。 
(3) 一 旦 安装 了 Java 之 后 ， 将 JDK/bin 路 径 添加 到 用 户 路 径 ， 并 用 下 列 命令 设置 JAVA HOME 
环境 变量 ， 注 意 将 Java 版 本 号 修改 成 读者 使 用 的 Java 版 本 。 


$ export JAVA HOME-/opt/jdk1.6.0 24 
$ export PATH-$JAVA HOME/bin:$(PATH) 


原理 分 析 

上 述 步骤 确保 用 户 安装 了 正确 的 Java 版 本 ,并 可 以 在 命令 行 下 调用 ， 而 无 须 使 用 宛 长 的 路 径 
名 指明 安装 位 置 。 

请 注意 , 上 面 的 命令 只 对 当前 正在 运行 的 shell 产 生 影响 。 这 些 设置 将 在 注销 用 户 , 关闭 shell， 
或 重新 启动 系统 之 后 清除 。 为 了 确保 相同 的 设置 始终 有 效 ， 可 以 把 这 些 设置 添加 到 读者 选中 的 
shell 启 动 文件 内 。 例 如 ， 对 于 Bash shell 来 讲 ， 其 启动 文件 为 .bash _profile， 对 于 TCSH 来 讲 ， 
其 启动 文件 为 .cshrc。 

我 所 青睐 的 另 一 种 方法 是 , 把 所 有 必需 的 配置 放 和 一 个 独立 的 文件 , 然后 从 命令 行 显 式 地 调 
用 此 文件 。 例 如 : 

$ source Hadoop config.sh 


这 种 方法 允许 读者 在 同一 账户 内 保持 多 个 安装 文件 , 而 不 致 于 使 shell 启 动 过 程 过 于 复杂 。 更 
























































不 用 说 , 某 些 应 用 程序 所 需 的 配置 确实 可 能 与 其 他 程序 的 配置 不 兼容 。 别 忘 了 在 每 次 开启 会 话 前 
载 人 该 文件 。 





安装 Hadoop 


对 于 初学 者 来 讲 ，Hadoop 最 令 人 困惑 的 一 个 方面 在 于 它 众 多 的 组 件 、 工 程 、 子 工程 ， 以 及 
它们 之 间 的 内 在 关系 。 事 实 上 ， 随 着 时 间 的 推移 ,这些 组 件 都 发 生 了 变化 ,然而 却 并 没有 使 这 一 
切 变 得 更 容易 理解 。 不 过 ,从 今 往 后 , 访问 网 站 http:/hadoop.apache.org 会 看 到 Hadoop 包 括 曾 提 到 
过 的 3 个 主要 工程 : 














口 Common 
口 HDFS 
口 MapReduce 


通过 第 1 章 的 解释 ， 我 们 应 该 对 后 两 项 内 容 较 为 熟悉 。Common 工 程 是 Hadoop 项 目的 核心 部 
分 ， 包 括 一 组 运行 库 和 各 种 工具 ， 它 们 帮助 Hadoop 实 际 运作 。 有 目前 重要 的 是 ， 标 准 的 Hadoop 发 
行 版 软件 包含 了 这 3 个 项 目的 最 新 版 本 ， 它 们 的 组 合 正 是 运行 Hadoop 所 需要 的 。 


各 版 本 的 注意 事项 
从 0.19 到 0.20 版 本 ，Hadoop 发 生 了 重大 的 变化 。 尤 其 是 ， 用 于 开发 MapReduce 应 用 的 API 迁 


移 到 了 一 组 新 API。 本 书 中 , 我们 将 主要 使 用 新 API， 但 是 后 面 的 章节 中 也 包含 了 一 些 旧 API 的 例 
子 ， 这 是 因为 现在 并 没有 将 现 有 的 所 有 功能 都 移植 到 新 API。 


自从 0.20 分 支 被 重 命名 为 1.0，Hadoop 的 版 本 管理 也 变 得 复杂 。0.22 和 0.23 分 支 仍然 存在 ， 
实 上 还 包含 了 一 些 1.0 分 支 所 不 包含 的 特性 。 在 写作 本 书 的 时 候 ， 由 于 1.1 和 2.0 分 支 被 用 作 将 来 外 
开发 版 本 , 所 以 事情 变 得 更 加 清晰 。 由 于 大 多 数 现 有 的 系统 和 第 三 方 工具 是 针对 0.20 分 支 开 发 的 ， 
本 书 中 ， 我 们 将 使 用 Hadoop 1.0 作 为 例子 。 
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2.3 ”实践 环节 : 下 载 Hadoop 
执行 以 下 操作 来 下 载 Hadoop。 


(1) 访 问 Hadoop 下 载 页 面 ， 网址 为 http://hadoop.apache.org/common/releases.html， 获 取 1.0.x 分 
支 的 最 新 稳定 版 本 。 本 书写 作 时 ， 最 新 稳定 版 为 1.0.4。 


(2) 选择 一 个 本 地 镜像 ， 之 后 以 类 似 hadoop-1.0.4-bin.tar.gz 的 名 字 下 载 文件 。 
(3) 使 用 如 下 命令 将 文件 拷贝 到 Hadoop 的 安装 路 径 (例如 ，/usr/local ): 


$ cp Hadoop-1.0.4.bin.tar.gz /usr/local 
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(4) 使 用 如 下 命令 将 文件 解压 缩 : 
$ tar -xf hadoop-1.0.4-bin.tar.gz 

(5) 为 Hadoop 的 安装 路 径 添 加 方便 使 用 的 符号 链接 。 
$ 1n -s /usr/local/hadoop-1.0.4 /opt/hadoop 


(6) 现在 ， 需 要 将 Hadoop 的 二 进 制 目录 添加 到 PATH 变量 ， 并 设置 HADOOP_HOME 环 境 变量 ， 就 
如 设置 Java 一 般 。 


$ export HADOOP HOME-/usr/local/Hadoop 
$ export PATH-$HADOOP HOME/bin:$PATH 


(7) 在 Hadoop 安 装 路 径 下 ， 进 入 conf 目 录 并 编辑 Hadoop-env.sh 文 件 。 搜 索 JRAVRA_HOME 并 
取消 该 行 的 注释 ， 修 改 其 路 径 使 其 指向 JDK 的 安装 路 径 ， 如 前 所 述 。 


原理 分 析 


上 述 步 又 确保 Hadoop 已 经 安装 并 可 通过 命令 行 调用 。 通 过 设置 path 及 环境 变量 ,我 们 可 以 
使 用 Hadoop 的 命令 行 工具 。Hadoop 配 置 文件 的 修改 ， 是 安装 过 程 所 需 的 唯一 改动 ， 为 的 是 与 主 
机 设置 相 结 合 。 


如 前 所 述 , 读者 应 该 把 export 命 令 放 入 shell 启 动 文件 , 或 者 启动 会 话 时 指定 的 独立 配置 脚本 。 
不 要 纠结 于 这 里 讲 到 的 某 些 细节 ， 后 续 内 容 还 会 介绍 Hadoop 的 安装 和 使 用 。 












































2.44 实践 环节 : 安装 SSH 
执行 下 列 步 骤 以 安装 SSH。 


(1) 通过 下 列 命令 创建 一 对 OpenSSL 密 钥 对 : 


$ ssh-keygen 

Generating public/private rsa key pair. 

Enter file in which to save the key (/home/hadoop/.ssh/id rsa): 
Created directory '/home/hadoop/.ssh'. 

Enter passphrase (empty for no passphrase): 

Enter same passphrase again: 

Your identification has been saved in /home/hadoop/.ssh/id rsa. 
Your public key has been saved in /home/hadoop/.ssh/id rsa.pub. 


(2) 使 用 下 列 命令 将 新 生成 的 公 铀 复制 至 已 授权 秘 钥 列表 : 


$ cp .ssh/id rsa.pub .Ssh/authorized keys 





(3) 连接 本 地 主机 : 


$ ssh localhost 

The authenticity of host 'localhost (127.0.0.1)' can't be established. 
RSA key fingerprint is b6:0c:bd:57:32:b6:66:70c:33:7b:62:92:61:£d:ca:2a. 
Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'localhost' (RSA) to the list of known hosts. 


(4) 确认 无 密码 的 SSH 可 以 运行 : 


$ ssh localhost 
$ ssh localhost 


原理 分 析 


由 于 Hadoop 需 要 在 一 台 或 多 台 计 算 机 上 的 多 个 进程 之 间 通 信 ， 我 们 需要 确保 正在 使 用 
Hadoop 的 用 户 不 输入 密码 即 可 连接 到 所 需 的 每 台 主 机 。 通 过 创建 有 一 个 空 口 令 Secure Shell 
(SSH) 的 密 钥 对 来 实现 这 一 点 。 我 们 使 用 ssh-keygen 命 令 启动 这 一 进程 ， 并 接受 所 提供 的 缺 
省 设置 。 

一 旦 创建 了 密 钥 对 ,需要 将 新 生成 的 公 钥 添加 到 可 信和 密 钥 的 存储 列表 。 这 就 意味 着 ， 当 
试图 连接 这 台 机 器 时 ， 公 和 钥 会 被 信任 。 然 后 , 使 用 ssh 命 令 连接 本 地 机 器 ， 应 该 会 获得 一 个 如 
上 述 显示 的 关于 信任 主机 证 书 的 警告 。 确 认 后 ， 我 们 应 该 能 够 连接 而 不 再 需要 密码 或 出 现 
提示 。 






































T d 请 注意 , 稍 后 使 用 一 个 完全 分 布 式 模式 的 集群 时 , 我 们 需要 确保 集群 中 每 台 
NS 主机 的 Hadoop 用 户 账号 具有 相同 的 密 钥 设置 。 


配置 并 运行 Hadoop 
到 目前 为 止 , 这 都 非常 简单 ， 只 涉及 下 载 和 系统 管理 。 现 在 ,终于 可 以 和 Hadoop 打 交道 了 。 


我 们 将 运行 一 个 简单 的 例子 ,以 表明 Hadoop 正 在 运行 。 接 下 来 的 步骤 需要 执行 额外 的 配置 和 设置 ， 
但 是 也 说 明 到 目前 为 止 ， 所 有 一 切 安装 和 设置 都 是 正确 的 。 














2.5 “实践 环节 : 使 用 Hadoop 计算 圆周 率 


现在 ， 我 们 使 用 一 个 简单 的 Hadoop 示 例 程 序 计算 圆周 率 的 值 。 眼 下 ， 这 主要 是 为 了 验证 安 
装 ， 同 时 展示 MapReduce 作 业 如 此 之 快 的 执行 速度 。 假 设 HADOOP_HOME/Dbin 目 录 已 存在 于 用 户 
的 PATH 变量 ， 请 键入 以 下 命令 : 





2.5 ”实践 环节 : 使 用 Hadoop 计算 圆周 率 21 





$ Hadoop jar hadoop/hadoop-examples-1.0.4.jar pi 4 1000 

Number of Maps = 4 

Samples per Map = 1000 

Wrote input for Map #0 

Wrote input for Map #1 

Wrote input for Map #2 

Wrote input for Map #3 

Starting Job 

12/10/26 22:56:11 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName- 
JobTracker, sessionId- 

12/10/26 22:56:11 INFO mapred.FileInputFormat: Total input paths to process : 4 
12/10/26 22:56:12 INFO mapred.JobClient: Running job: job. 

local 0001 





12/10/26 22:56:12 INFO mapred.FileInputFormat: Total input paths to process : 4 
12/10/26 22:56:12 INFO mapred.MapTask: numReduceTasks: 1 


12/10/26 22:56:14 INFO mapred.JobClient: map 100% reduce 100% 
12/10/26 22:56:14 INFO mapred.JobClient: Job complete: job. 
local 0001 

12/10/26 22:56:14 INFO mapred.JobClient: Counters: 13 

12/10/26 22:56:14 INFO mapred.JobClient: FileSystemCounters 


Job Finished in 2.904 seconds 
Estimated value of Pi is 3.14000000000000000000 
$ 


原理 分 析 


上 述 例 程 的 输出 包含 了 大 量 信息 ， 当 在 屏幕 上 获得 完整 的 输出 时 甚至 会 有 更 多 的 信息 。 现 在 ， 
让 我 们 一 步 一 步 进行 分 析 , 无 需 为 Hadoop 的 状态 输出 感到 困惑 , 因为 后 续 内 容 会 对 它 进行 专门 介绍 。 
首先 要 弄 清楚 的 是 一 些 术语 : 每 个 Hadoop 程 序 就 是 一 个 作业 , 它 会 创建 多 个 任务 来 完成 自己 的 工作 。 


查看 和 输出， 我 们 把 它 宽泛 地 概括 为 3 个 部 分 : 
口 启动 作业 


口 作业 的 执行 状态 
口 作业 结果 的 输出 


在 上 述 例子 中 可 以 看 到 ， 这 个 作业 创建 了 4 个 任务 来 计算 圆周 率 ， 整 个 作业 的 结果 将 是 这 些 
子 结果 的 组 合 。 这 种 模式 听 起 来 应 该 很 熟悉 ， 与 第 1 章 中 讲 到 的 类 似 。 这 种 模型 将 一 个 较 大 的 作 
业 拆 分 成 较 小 的 任务 来 执行 ， 然 后 将 结果 整合 起 来 。 


随 着 作业 的 执行 ,出现 了 大 部 分 输出 , 它们 提供 了 显示 作业 进度 的 状态 消息 。 工 作成 功 完成 
后 ， 作 业 将 打印 出 一 些 计数 顺和 其 他 数据 。 事 实 上 ， 这 个 例子 的 不 同 寻常 之 处 在 于 ， 很 少见 到 
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MapReduce 作 业 的 结果 直接 显示 在 控制 台 上 。 这 并 不 是 Hadoop 的 一 个 局 限 性 ， 而 是 由 于 ， 处 理 大 
数据 集 的 作业 通常 会 产生 相当 多 的 输出 数据 ， 并 不 适合 简单 地 在 屏幕 上 显示 。 


恭喜 你 ， 成 功 地 完成 了 第 一 个 MapReduce 作 业 ! 




















3 种 模式 


我 们 渴望 在 Hadoop 上 运行 作业 , 却 回避 了 一 个 重要 的 问题 : 应 该 在 何 种 模式 下 运行 Hadoop? 
Hadoop 有 3 种 运行 模式 ， 各 种 模式 下 ，Hadoop 组 件 的 运行 场所 有 所 不 同 。 回 想 一 下 ，HDFS 包 括 
一 个 NameNode, 它 充当 着 集群 协调 者 的 角色 , 是 一 个 或 多 个 用 于 存储 数据 的 DataNode 的 管理 者 。 
对 于 MapReduce 而 言 ，JobTracker 是 集群 的 主 节点 ， 它 负责 协调 多 个 TaskTracker 进 程 执行 的 工作 。 
Hadoop 以 如 下 3 种 模式 部 署 上 述 组 件 。 


口 本 地 独立 模式 : 像 前 面 计 算 圆周 率 的 例子 一 样 ， 如 果 不 进 行 任何 配置 的 话 ， 这 是 Hadoop 
的 默认 工作 模式 。 在 这 种 模式 下 , Hadoop 的 所 有 组 件 , 如 NameNode DataNode , JobTracker 
和 TaskTracker， 都 运行 在 同一 个 Java 进 程 中 。 

OQ 伪 分 布 式 模 式 : 在 这 种 模式 下 ，Hadoop 的 各 个 组 件 都 拥有 一 个 单独 的 Java 虚 拟 机 ， 它 们 
之 间 通 过 网 络 套 接 字 通信 。 这 种 模式 在 一 台 主 机 上 有 效 地 产生 了 一 个 具有 完整 功能 的 微 
型 集群 。 

口 完全 分 布 式 模式 : 在 这 种 模式 下 ，Hadoop 分 布 在 多 台 主 机 上 ， 其 中 一 些 是 通用 的 工作 机 ， 

其 余 的 是 组 件 的 专用 主机 ， 比 如 NameNode 和 JobTracker。 


每 种 模式 都 有 其 优点 和 缺点 。 完 全 分 布 式 模式 显然 是 唯一 一 种 可 以 将 Hadoop 扩 展 到 机 器 集 
群 的 方式 , 但 它 需 要 更 多 的 配置 工作 , 更 不 用 提 所 需要 的 机 器 集群 。 本 地 或 独立 模式 的 设置 工作 
是 最 简单 的 , 但 它 与 用 户 的 交互 方式 不 同 于 全 分 布 式 模式 的 交互 方式 。 一 般 情况 下 ,本 书 更 喜欢 
使 用 伪 分 布 式 模式 ,即使 程序 只 需 在 一 台 主 机 上 运行 。 这 是 因为 , Hadoop 在 伪 分 布 式 模式 下 执行 
的 操作 与 其 在 更 大 的 集群 上 的 运作 几乎 是 相同 的 。 























































































































2.0 ”实践 环节 : 配置 伪 分 布 式 模式 


查看 Hadoop 安 装 包 中 的 conf 目 录 。 那 里 有 很 多 配置 文件 ， 但 只 需 对 其 中 3 个 文件 进行 修改 : 


core-site.xml, hdfs-site.xml 和 mapred-site.xml. 
(1) 如 下 所 示 ， 修 改 core-site.xml 文 件 : 


«?xml version="1.0"?> 
<?xml-stylesheet type-"text/xsl" href-"configuration.xsl"?» 


<!-- Put site-specific property overrides in this file. --» 


«configuration» 
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«property» 
«name»fs.default.name«/name» 
«value»hdfs://localhost:9000«/value» 
</property> 

</configuration> 





(2) 如 下 所 示 ， 修改 hdfs-site.xml 文 件 : 


«?xml version="1.0"?> 
<?xml-stylesheet type-"text/xsl" href="configuration.xsl"?> 


«!-- Put site-specific property overrides in this file. --» 


«configuration» 

«property» 
«name»dfs.replication«c/name» 
«value»1«/value» 

</property> 

</configuration> 


(3) 如 下 所 示 ， 修 改 mapred-site.xml 文 件 : 


«?xml version="1.0"?> 
<?xml-stylesheet type-"text/xsl" href="configuration.xsl"?> 


«!-- Put site-specific property overrides in this file. --» 


«configuration» 

«property» 
«name»mapred.job.tracker«/name» 
«value»localhost:9001«/value» 
</property> 

</configuration> 


原理 分 析 
首先 ， 请 注意 这 些 配置 文件 的 通用 格式 。 显 然 ， 它 们 都 是 XML 文件 ， 单 个 配置 元 素 包 含有 
多 个 属性 说 明 。 
属性 说 明 总 是 包含 名 称 和 值 元 素 ， 可 能 会 有 可 选 注释 ， 这 并 没有 在 前 面 的 代码 中 展示 。 
在 这 里 ， 我 们 需要 设置 3 个 配置 变量 。 
口 变量 dfs .default .name 保 存 了 NameNode 的 位 置 ，HDFS 和 MapReduce 组 件 都 需要 它 。 
这 就 是 它 出 现在 core-site.xml 文 件 中 而 不 是 hafs-site.xml 文 件 中 的 原因 。 
O 变量 afs.replication 指 定 了 每 个 HDFS 数 据 块 的 复制 次 数 。 回 想 一 下 第 1 章 中 讲述 的 内 
容 ，HDFS 确 保 每 个 数据 块 被 复制 到 多 人 台 不 同 主机 (通常 是 3 台 )， 以 此 方式 处 理 故 障 。 由 
于 我 们 只 有 一 台 主 机 和 一 个 伪 分 布 式 模 式 的 DataNode， 将 此 值 修 改 为 1。 












































O 如 同 dfs .default .name 保 存 了 NameNode 的 位 置 ， 变 量 mapred.job.tracker 保 存 了 
JobTracker 的 位 置 。 因 为 只 有 MapReduce 组 件 需要 知道 这 个 位 置 ， 所 以 它 出 现在 
mapred-site.xml 文 件 中 。 





端口 。 


[s 当然 ， 读 者 可 以 随意 修改 要 使 用 的 端口 号 ， 但 9000 和 9001 是 Hadoop 的 常用 
>- 默认 


NameNode 和 JobTracker 的 网 络 地 址 指定 了 实际 的 系统 请 求 应 当 到 达 的 端口 。 这 些 位置 都 不 面 
向 用 户 ， 所 以 不 用 担心 您 的 Web 浏 览 器 会 指向 他 们 。 不 久 ， 我 们 将 会 讲解 Web 界 面 。 





配置 根 目录 并 格式 化 文件 系统 
假如 我 们 选择 了 伪 分 布 式 或 完全 分 布 式 模式 ， 在 启动 Hadoop 集 群 之 前 需要 执行 两 个 步骤 。 


(1) 设置 存储 Hadoop 文 件 的 根 目录 。 
(2) 格式 化 HDFS 文 件 系统 。 

















o 


| à 准确 地 讲 ， 我 们 不 需要 修改 默认 目录 ， 但 是 稍 后 会 讲 到 ， 最 好 尽早 考虑 这 


2. ”实践 环节 : 修改 HDFS 的 根 目录 
首先 来 设置 HDFS 的 根 目录 ， 它 指定 了 HDFS 在 本 地 文件 系统 保存 其 全 部 数据 的 位 置 。 执 行 
以 下 步骤 。 
(1) 创建 Hadoop 保 存 数 据 的 目录 : 
$ mkdir /var/lib/hadoop 
(2) 确保 任何 用 户 都 可 在 此 目录 写 入 数据 : 
$ chmod 777 /var/lib/hadoop 
(3) 再 次 修改 core-site.xml 文 件 ， 添 加 下 列 属性 : 
<property> 
<name>hadoop.tmp.dir</name> 


<value>/var/lib/hadoop</value> 
</property> 
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原理 分 析 


由 于 我 们 将 在 Hadoop 中 存储 数据 ， 同 时 所 有 组 件 都 运行 在 本 地 主机 ， 这 些 数据 都 需要 存储 
在 本 地 文件 系统 的 某 个 地 方 。 不 管 选择 了 何 种 模式 , Hadoop 默 认 使 用 hadoop .tmp .dir 属 性 作为 
根 目 录 ， 所 有 文件 和 数据 都 将 写 和 该 目录 。 


例如 ，MapReduce 使 用 根 目 录 下 的 /mapred 目 录 ，HDFS 使 用 /dfs 目 录 。 人 危险 的 是 ， 



































hadoop.tmp.dir 的 默认 值 为 /tmp， 一些 版 本 的 Linux 系 统 会 在 每 次 重新 启动 时 删除 /tmp 的 内 
容 。 所 以 ， 明 确 规定 数据 留存 的 位 置 更 为 安全 。 


2.8 实践 环节 : 格式 化 NameNode 


无 论 是 在 伪 分 布 式 模式 还 是 完全 分 布 式 模 式 下 ， 在 首次 启动 Hadoop 之 前 ， 都 需要 格式 化 
Hadoop 将 要 用 到 的 HDFS 文 件 系统 。 输 入 如 下 命令 : 


$ hadoop namenode -format 


该 命令 的 输出 应 如 下 所 示 : 


$ hadoop namenode -format 


12/10/26 22:45:25 INFO namenode.NameNode: 





STARTUP MSG: 


JC ee he e e e she e e k she k k k he e e k he e e k he k k he he k k ehe he e k he k k k he k k k he k k ce he k k k k e k e k k k e 


STARTUP MSG: 
STARTUP MSG: 
STARTUP MSG: 


12/10/26 
12/10/26 
12/10/26 
12/10/26 
12/10/26 


12/10/26 22:45:26 INFO namenode.NameNode: 


22 
22 
22 
22 
22 


Starting NameNode 
host - 
args - 


:45: 
:45: 
:45: 
:45: 
:45 


:25 


INFO 
INFO 
INFO 
INFO 
INFO 


vm193/10.0.0.193 
[-format] 


namenode.FSNamesystem: 
namenode.FSNamesystem: 
namenode.FSNamesystem: 


common.Storage: Image 


fsOwner-hadoop,hadoop 
supergroup-supergroup 
isPermissionEnabled-true 

file of size 96 saved in 0 seconds. 


common.Storage: Storage directory /var/lib/hadoop- 
hadoop/dfs/name has been successfully formatted. 


SHUTDOWN MSG: 


vdd LL LLLLLLLLLLLL i 


SHUTDOWN MSG: Shutting down NameNode at vm193/10.0.0.193 


$ 


原理 分 析 


这 并 不 是 一 个 令 人 非常 兴奋 的 和 输出， 因为 这 个 步骤 只 是 使 我 们 今后 能 够 使 用 HDFS。 然 而 ， 
它 有 助 于 我 们 对 HDFS 的 理解 ， 它 只 是 一 个 文件 系统 ， 没 有 什么 神秘 的 。 就 像 使 用 任何 操作 系统 
的 任何 新 的 存储 设备 之 前 ， 我 们 都 需要 对 其 进行 格式 化 操作 。HDFS 同 样 如 此 ， 最 初 有 一 个 默认 
的 存放 文件 系统 数据 的 位 置 ， 但 没有 等 同 于 文件 系统 索引 的 实际 数据 。 









































每 次 都 需要 执行 格式 化 ! 
假如 你 的 Hadoop 和 我 的 类 似 ， 在 重新 安装 Hadoop 的 时 候 ， es 系列 
的 简单 错误 。 因 为 很 容易 忘记 格式 化 NameNode， 于 是 就 会 在 第 一 次 尝试 使 用 


” ”Hadoop 的 时 候 收 到 一 系列 故障 信息 。 
但 只 执行 一 次 格式 化 ! 


格式 化 NameNode 的 命令 可 以 执行 多 次 , 但 是 这 样 会 使 所 有 的 现 有 文 件 系 统 
数据 受 损 。 只 有 在 Hadoop 集 群 关闭 和 你 想 进行 格式 化 的 情况 下 ， 才 能 执行 格式 
化 。 但 在 其 他 大 多 数 情况 下 ， 格 式 化 操作 会 快速 、 不 可 恢复 地 删除 HDFS 上 的 所 
有 数据 。 它 在 大 型 集群 上 的 执行 时 间 更 长 。 所 以 一 定 要 小 心 ! 


启动 并 使 用 Hadoop 
在 完成 所 有 安装 及 配置 步骤 之 后 ， 现 在 启动 集群 并 用 它 实 际 做 一 些 事情 。 








2.9 ”实践 环节 : 启动 Hadoop 


在 本 地 模式 中 ， 所 有 Hadoop 组 件 只 在 作业 的 生命 周期 运行 ; 伪 分 布 式 或 者 全 分 布 式 模式 的 
Hadoop 集 群 则 与 此 不 同 , 其 组 件 以 长 期 运行 的 进程 的 形式 存在 。 在 使 用 HDFS 或 MapReduce 之 前 ， 
需要 事先 启动 所 需 组 件 。 键 入 以 下 命令 ， 输 出 应 该 如 下 所 示 (其 中 命令 以 $ 为 前 缓 ): 


(1) 输入 第 一 个 命令 : 


$ start-dfs.sh 

starting namenode, logging to /home/hadoop/hadoop/bin/../logs/ 
hadoop-hadoop-namenode-vm193.out 

localhost: starting datanode, logging to /home/hadoop/hadoop/ 
bin/../logs/hadoop-hadoop-datanode-vm193.out 

localhost: starting secondarynamenode, logging to /home/hadoop/ 
hadoop/bin/../logs/hadoop-hadoop-secondarynamenode-vm193.out 


(2) 输入 第 二 个 命令 : 


$ jps 

9550 DataNode 

9687 Jps 

9638 SecondaryNameNode 
9471 NameNode 


(3) 输入 第 三 个 命令 : 


$ hadoop dfs -1s / 
Found 2 items 
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drwxr-xr-x -hadoop supergroup 0 2012-10-26 23:03 /tmp 
drwxr-xr-x -hadoop supergroup 0 2012-10-26 23:06 /user 


(4) 输入 第 四 个 命令 : 


$ start-mapred.sh 

starting jobtracker, logging to /home/hadoop/hadoop/bin/../logs/hadoop-hadoop- 
jobtracker-vm193.out 

localhost: starting tasktracker, logging to /home/hadoop/hadoop/bin/../logs/ 
hadoop- hadoop-tasktracker-vm193.0out 


(5) 输入 第 五 个 命令 : 


$ jps 

9550 DataNode 

9877 TaskTracker 

9638 SecondaryNameNode 
9471 NameNode 

9798 JobTracker 

9913 Jps 


原理 分 析 


顾名思义 ，start-dfs .sh 命令 启动 HDFS 的 必要 组 件 。 这 些 组 件 包括 管理 文件 系统 的 
NameNode 和 一 个 保存 数据 的 DataNode。SecondaryNameNode 是 一 个 可 用 性 辅助 程序 ， 我 们 将 在 
后 面 的 章节 讨论 它 。 


启动 这 些 组 件 后 ， 我 们 使 用 JDK 的 jps 工 具 查 看 哪个 Java 进 程 正在 运行 。 从 输出 来 看 ， 系 统 
运转 正常 ， 我 们 随后 使 用 Hadoop 的 afs 工 具 列 出 HDFS 文 件 系统 的 根 目录 。 


在 此 之 后 , 我 们 使 用 start-mapred. sh 启动 MapReduce 的 组 件 , 这 次 会 启动 JobTracker 和 一 
个 TaskTracker， 然 后 再 次 使 用 jps 来 验证 结 


在 稍 后 阶段 ,我 们 还 将 使 用 一 个 组 合 的 start-all .sh 文件 。 但 在 初期 执行 两 阶段 的 启动 
是 非常 有 用 的 ， 这 样 更 容易 检验 集群 的 配置 是 否 正 确 。 















































2.10 ”实践 环节 : 使 用 HDFS 


如 前 面 例子 所 示 , HDFS 提 供 了 一 套 看 似 熟悉 的 接口 , 用 户 可 以 使 用 类 似 于 Unix 系 统 的 命令 ， 
来 操作 文件 系统 上 的 文件 和 目录 。 键 入 以 下 命令 试验 一 下 。 


输入 下 列 命令 : 


$ hadoop -mkdir /user 
$ hadoop -mkdir /user/hadoop 








28 923 安装 并 运行 Hadoop 
$ hadoop fs -1s /user 
Found 1 items 
drwxr-xr-x - hadoop supergroup 0 2012-10-26 23:09 /user/Hadoop 


$ echo "This is a test." »» test.txt 


$ cat test.txt 


This is a test. 


$ hadoop dfs - 
$ hadoop dfs - 
Found 1 items 
-rw-r--r-- 
test.txt 

$ hadoop dfs - 


copyFromLocal test.txt 
ls 


1 hadoop supergroup 16 2012-10-26 23:19/user/hadoop/ 


cat test.txt 


This is a test. 


$ rm test.txt 
$ hadoop dfs - 


cat test.txt 


This is a test. 
$ hadoop fs -copyToLocal test.txt 
$ cat test.txt 
This is a test. 


原理 分 析 








这 个 例子 展示 了 Hadoop 实 用 工具 中 的 fs 子 命令 的 用 法 。 请 注意 ，afs 和 fs 命令 是 相同 的 。 
像 大 多 数 文件 系统 一 样 , Hadoop 为 每 个 用 户 保留 一 个 主 目录 。 这 些 主 目录 都 位 于 HDFS 上 的 /user 
路 径 下 。 在 继续 深入 之 前 ,假如 主 目录 不 存在 的 话 ， 我 们 需要 自己 创建 主 目录 。 


然后 ， 在 本 地 文件 系统 创建 一 个 简单 的 文本 文件 ， 并 使 用 copyFromLocal 命 令 将 其 复制 到 
HDFS， 并 通过 -1s 和 -cat 实 用 程序 来 检查 文件 是 否 存 在 并 查看 其 内 容 。 在 Unix 系 统 中 ， 未 带 参 

































































数 的 -1s 命 令 指定 是 





用 户主 目录 ， 相 对 路 径 〈 不 以 /开头 ) 指 的 也 是 那个 位 置 ， 因 此 ， 不 难看 出 ， 




















用 户主 目录 的 别名 是 . 。 
然后 ， 从 本 地 文件 系统 删除 文件 ， 使 用 -copyToLocal 命 令 从 HDFS 将 其 复制 回 到 本 地 文件 





系统 ， 用 本 地 cat 工 


具 检 查 其 内 容 。 





如 上 述 例 子 所 示 ， 混 合 使 用 HDFS 和 本 地 文件 系统 命令 十 分 强大 ， 很 容易 在 


尤其 是 在 删除 文件 的 时 候 。 


| 


还 有 一 些 HDFS 


的 操作 命令 ， 试 着 用 hadoop fs -help 来 获取 详细 列表 。 


2.11 ”实践 环节 : MapReduce 的 经 典 入 门 程序 一 一 字数 统计 
随 着 时 间 的 推移 ， 许 多 应 用 程序 都 有 一 个 经 典 例子 ， 它 是 所 有 初学 者 指南 都 要 用 到 的 。 对 





(2) 现在 执行 


2.4 实践 环节 : MapReduce 的 经 典 入 门 程序 一 一 字数 统计 29 
Hadoop 而 言 ， 这 就 是 字数 统计 程序 WordCount 一 一 一 个 Hadoop 自 带 的 例子 ， 它 用 来 统计 一 个 输入 
文本 文件 中 每 个 词 的 出 现 频率 。 
(1) 首先 执行 下 列 命令 : 
$ hadoop dfs -mkdir data am 
$ hadoop dfs -cp test.txt data 
$ hadoop dfs -1s data 


Found 1 items 
-rw-r--r-- 


1 hadoop supergroup 


user/hadoop/data/test.txt 


TA: 


$ Hadoop Hadoop/hadoop-examples-1.0.4.jar 


12/10/26 23:22:49 
12/10/26 23:22:50 
job 201210262315 0 
12/10/26 23:22:51 
12/10/26 23:23:03 
12/10/26 23:23:15 
12/10/26 23:23:17 
job 201210262315 0 
12/10/26 23:23:17 
12/10/26 23:23:17 
12/10/26 23:23:17 
tasks=1 
12/10/26 
12/10/26 
tasks=1 
12/10/26 
12/10/26 
12/10/26 23:23:17 
12/10/26 23:23:17 
WRITTEN=124 
12/10/26 23:23:17 
12/10/26 23:23:17 
12/10/26 23:23:17 
12/10/26 23:23:17 
records=4 
12/10/26 23:23:17 
12/10/26 23:23:17 
bytes=46 

12/10/26 23:23:17 
records=4 
12/10/26 23:23:17 
12/10/26 23:23:17 
12/10/26 23:23:17 
records=4 
12/10/26 23:23:17 
12/10/26 23:23:17 
records=4 


23:23:17 
23:23:17 


23:23:17 
23:23:17 


INFO 
INFO 
002 

INFO 
INFO 
INFO 
INFO 
002 

INFO 
INFO 
INFO 


INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


INFO 
INFO 


INFO 
INFO 
INFO 


INFO 


INFO 
INFO 


16 2012-10-26 23:20 / 


wordcount data out 


input.FileInputFormat: Total input paths to process : 1 
mapred.JobClient: Running job: 


mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 
mapred.JobClient: 


mapred.JobClient: 


mapred.JobClient: 
mapred.JobClient: 


map 0% reduce 0% 


map 100% reduce 0% 


map 100? ; reduce 100% 


Job complete: 


Counters: 17 
Job Counters 
Launched reduce 


Launched map tasks- 


Data-local map 


FileSystemCounters 
FILE BYTES READ-46 
HDFS BYTES READ-16 
FILE BYTES 


1 


HDFS BYTES WRITTEN-24 
Map-Reduce Framework 
Reduce input groups-4 


Combine output 


Map input records-1 


Reduce shuffle 


Reduce output 


Spilled Records-8 


Map output bytes-32 


Combine input 


Map output records 
Reduce input 


-4 
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(3) 执行 以 下 命令 : 


$ hadoop fs -1s out 
Found 2 items 


drwxr-xr-x - hadoop supergroup 0 2012-10-26 23:22 / 
user/hadoop/out/ logs 
-rw-r--r-- 1 hadoop supergroup 24 2012-10-26 23:23 / 


user/hadoop/out/part-r-00000 
(4) 现在 执行 这 个 命令 : 


$ hadoop fs -cat out/part-0-00000 
This 1 

a 1 

is 1 

test. 1 


原理 分 析 

刚才 ， 我 们 做 了 如 下 3 件 事情 : 
a 将 之 前 创建 的 文本 文件 移 到 HDFS 的 一 个 新 路 径 下 ; 
口 以 上 述 新 路 径 和 一 个 不 存在 的 输出 路 径 为 参数 ， 运 行 WordCount 例 程 ; 
a 使 用 fs 程序 检查 MapReduce 作 业 的 输出 。 

如 前 所 述 ， 伪 分 布 式 模式 有 着 更 多 的 Java 进 程 , 那么 字数 统计 作业 的 输出 明显 短 于 独立 模式 
下 计算 圆周 率 的 作业 ,这 点 看 似 奇 怪 。 原因 在 于 ,本 地 独立 模式 将 每 个 单独 任务 执行 的 信息 都 打 
印 在 屏幕 上 ， 而 在 其 他 模式 下 ， 这 些 信息 只 被 写 人 运行 主机 的 日 志文 件 中 。 

输出 路 径 由 Hadoop 自 己 创建 , 实际 的 结果 文件 遵守 part-nnnn 的 约定 。 虽然 由 于 我 们 设置 的 原 
因 ， 仅 有 一 个 结果 文件 。 我 们 使 用 fs -cat 命 令 来 检查 文件 ， 结 果 和 预期 一 致 。 















































如 果 指 定 一 个 已 有 目录 作为 Hadoop 作 业 的 输出 路 径 ， 作 业 将 无 法 运行 ， 并 
， ”会 抛 出 异常 抗议 一 个 已 经 存在 的 目录 。 如 果 想 让 Hadoop 将 输出 存储 到 一 个 目录 ， 
SS 它 必 须 是 不 存在 的 目录 。 把 这 个 特点 当做 Hadoop 的 一 种 安全 机 制 ， 它 可 以 防止 
Hadoop 重 写 有 用 的 文件 以 及 用 户 总 是 忘记 弄 清 的 事 。 后 面 将 会 讲 到 ， 如 果 用 户 

有 足够 信心 ， 也 可 以 覆盖 这 种 方式 。 





圆周 率 和 字数 统计 程序 只 是 Hadoop 附 带 例子 的 一 小 部 分 。 下 面 是 如 何 获得 全 部 例子 列表 的 
方法 。 看 看 你 能 和 否 理解 其 中 部 分 内 容 。 





$ hadoop jar hadoop/hadoop-examples-1.0.4.jar 
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RAF: 在 更 大 规模 的 文本 上 进行 字数 统计 


运行 如 此 复杂 的 Hadoop 框 架 ， 利 用 5 个 分 立 的 Java 进 程 来 统计 一 个 单行 文本 文件 的 字数 ， 
并 不 会 给 人 留 下 非常 深刻 的 印象 。Hadoop 令 人 震惊 的 力量 源 自 一 个 事实 ， 即 我 们 可 以 使 用 完 
全 相同 的 程序 对 一 个 较 大 的 文件 进行 字数 统计 ， 甚 至 是 分 布 在 多 个 节点 组 成 的 Hadoop 集 群 上 
的 庞大 语料库 文本 。 处 理 这 种 任务 时 ,执行 的 命令 和 刚才 完全 相同 : 运行 字数 统计 程序 并 指定 
源 数 据 和 输出 数据 目录 的 位 置 。 

找 一 个 大 型 在 线 文本 文件 ， 位 于 http:/www.gutenberg.org 的 Gutenberg 项 目 就 是 一 个 很 好 的 
人 案例， 把 它 拷贝 到 HDFS 并 执行 WordCount 例 程 来 对 它 进 行 字 数 统计 。 输 出 可 能 会 与 您 的 预 其 
有 所 不 同 ， 因 为 在 一 大 段 文字 中 ,， 脏 数据 、 标 点 符号 和 格式 问题 都 需要 解决 。 想 想 应 当 如 何 改 
进 WordCount， 我 们 将 在 下 一 章 研究 如 何 将 其 扩展 到 一 个 更 复杂 的 处 理 链 。 





通过 浏览 器 查看 Hadoop 活 动 

截至 目前 ， 我 们 一 直 依靠 命令 行 工具 和 直接 的 命令 输出 来 观察 系统 的 运行 状况 。Hadoop 提 
供 了 两 个 你 应 当 熟 练 使 用 的 网 络 接口 : 一 个 用 于 HDFS， 另 一 个 用 于 MapReduce。 两 者 对 伪 分 布 
式 Hadoop 和 全 分 布 式 Hadoop 意 义 重 大 ， 尤 其 是 对 全 分 布 式 Hadoop 至 关 重 要 。 


HDFS 网 络 用 户 接 口 


将 浏览 器 指向 运行 着 Hadoop 主 机 的 50030 端 口 。 默 认 情 况 下 ，Web 界 面 对 于 本 地 主机 和 具有 
网 络 访问 权限 的 任何 其 他 机 器 都 是 可 用 的 。 下 面 是 一 个 截图 示例 ; 








lode vm193:9000 - Windows Internet Explorer 











G v [e http://10.0.0.193:50070/dfshealth.j siepe px p [D ava secure sea p| 
Ele gdt View Favorites Tools Help 
p- 了 | 加 za -e Eon m 88 a + O ms Games [)- ~| + 
Favortes EE| -| wore Infrastructure web .| @Æ new Tab | Æ Hadoop NameNode vts... x | locahost Hadoop MapjRedu... | | 





NameNode 'vm193:9000' 


Started: Wed Oct 26 23:35:45 BST 2011 
Version: 0.20.2, 911707 

Compiled: Fri Feb 19 08:07:34 UTC 2010 by chrisdo 
Upgrades: There are no upgrades in progress 


Browse the filesystem 
Namenode Logs 


Cluster Summary 


Safe mode is ON. The ratio of reported blocks 0.0000 has not reached the threshold 0.9990. Safe mode will be turned off 
automatically. 
19 files and directories, 7 blocks = 26 total. Heap Size is 15.31 MB / 966.69 MB (196) 


Configured Capacity 








DFS Used 0KB 
Non DFS Used 0KB 
DFS Remaining 0KB 
DFS Used% 100 96 
DFS Remaining% 0% 
Live Nodes 0 
Dead Nodes 0 
There are no datanodes in the cluster zi 








[Done | [8 I internet e [ROA - 7 
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这 个 接口 包含 了 很 多 信息 , 但 我 们 可 以 通过 一 些 关 键 数据 直观 地 获悉 集群 的 节点 数 、 文 件 系 
统 的 大 小 、 已 用 空间 以 及 用 于 获取 更 多 信息 甚至 浏览 整个 文件 系统 的 链接 。 


读者 需要 人 花 些 时 间 来 慢 慢 熟悉 这 个 接口 , 这 是 很 有 必要 的 。 在 一 个 多 节点 的 集群 中 , 活跃 节 
点 和 死亡 节点 的 信息 ， D carts uet 史 状 态 信息 对 于 调试 集群 故障 起 着 关键 作用 。 














@ MapReduce 的 网 络 用 户 接 口 


aa aa 口 的 默认 端口 是 50070, 前 面 讲 的 访问 规则 同样 适用 于 此 。 下 面 是 一 个 









/Elocalhost Hadoop Map/Reduce Administration - Windows Internet Explorer 








jobtracker.jsp 





Yttp://10.0.0.193:50030/ 


GO- ke 





File Edt View Favorites Tools Help 
xp- |E seach e E oon > Bänn- @ musie f cames H- QUIE t- 
W Favorites gg| -| {Æ VMware Infrastructure Web ,,， | Æ New Tab | {Æ Hadoop NameNode vm193:9,,， | {Æ localhost Hadoop Map/R... X | | 





localhost Hadoop Map/Reduce Administration 


Quick Links 
State: RUNNING 
Started: Wed Oct 26 23:36:10 BST 2011 
Version: 0.20.2, r911707 
Compiled: Fri Feb 19 08:07:34 UTC 2010 by chrisdo 
Identifier: 201110262335 


Cluster Summary (Heap Size is 15.31 MB/966.69 MB) 





Reduce Task Capacity | Avg. Tasks/Node | Blacklisted Nodes | 
2 |4.00 0 | 


Reduces | Total Submissions | Nodes 
0 E 1 


Maps 
0 


Map Task Capacity 
2 




















Scheduling Information 





Queue Name | Scheduling Information 





default N/A 











Filter (Jobid, Priority, User, Name) 
Example: 'user.smith 3200' will filter by 'smith' only in the user field and 3200' in all fields - 
is] » 


Done FT [ [8 I internet Fa- [aims ~ Z 








它 比 HDFS 接 口 更 为 复杂 ! 除了 类 似 的 活跃 节点 、 死 亡 节 点 数量 外 ， 它 还 提供 了 启动 以 来 已 
执行 的 作业 数 ， 以 及 每 个 作业 拆 分 的 任务 数 。 


正在 执行 的 作业 和 已 完成 作业 列表 通常 能 够 提供 更 多 信息 。 对 每 个 作业 来 讲 , 我 们 可 以 访 
问 每 个 任务 在 每 个 节点 上 的 运行 情况 ,可 以 访问 包含 更 详细 信息 的 日 志 。 现在, 我 们 将 揭示 一 
个 任何 分 布 式 系统 都 存在 的 令 人 非常 头疼 的 问题 : 调试。 在 分 布 式 系统 上 进行 调试 真 的 是 非常 
困难 。 
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假设 你 试图 使 用 100 台 机 器 组 成 的 集群 处 理 巨 大 的 数据 集 ， 其 中 每 台 主 机 都 要 执行 数 百 个 
map 和 reduce 任 务 。 如 果 作 业 开 始 缓慢 地 运行 或 出 现 了 明显 的 失败 ， 问 题 出 在 什么 地 方 通常 并 不 
明显 。 查 看 MapReduce 的 网 页 用 户 接口 很 可 能 是 诊断 间 题 的 第 一 站 ， 因 为 该 接口 提供 的 丰富 信息 
是 调查 正在 运行 的 作业 和 已 完成 作业 的 人 手 点 。 






































2.12 ”使 用 弹性 MapReduce 


现在 , 我 们 转 去 云端 Hadoop 一 一 由 Amazon Web Services 提 供 的 弹性 MapReduce 服 务 。 有 多 种 
访问 EMR 的 方法 ,但 现在 ， 我们 会 专注 于 亚马逊 提供 的 Web 控 制 台 。Web 控 制 台 使 用 完全 点 击 式 
的 Hadoop 操 作 方 法 ， 与 之 前 使 用 命令 行 的 操作 方式 形成 了 鲜明 对 比 。 























创建 Amazon Web Services 账 号 


在 使 用 弹性 MapReduce 之 前 ， 需 要 创建 一 个 Amazon Web Services 账 号 并 用 它 注册 必需 的 
服务 。 


1. 创建 AWS 账 号 


Amazon 通 用 账号 已 经 集成 了 AWS 服 务 , 也 就 是 说 ,如 果 读 者 已 经 有 了 任意 一 个 Amazon 零 售 
网 站 的 账号 ， 用 它 即 可 访问 AWS 服 务 。 


需要 注意 的 是 ，AWS 服 务 是 付费 服务 ， 用 户 需 要 将 有 效 的 信用 卡 与 其 Amazon 账 号 绑 定 ， 费 
用 将 由 此 信用 卡 支 付 。 


如 果 读 者 需要 一 个 新 的 Amazon 账 户 ， 访问 http://aws.amazon.com， 选 择 “create a new AWS 
account”， 并 按照 提示 操作 。Amazon 已 经 增加 了 一 个 免费 服务 层 ， 所 以 读者 可 能 发 现 , 在 初期 的 
测试 和 探索 阶段 , 许多 活动 都 是 在 非 付 费 层 进行 的 。 免费 层 的 范围 已 经 扩大 ， 所 以 要 确信 你 知道 
哪些 是 收费 的 以 及 哪些 是 免费 的 。 

































































2. 注册 必需 的 服务 


有 了 一 个 Amazon 账 号 之 后 ， 需 要 用 它 注册 要 用 到 的 AWS 服 务 : 简单 存储 服务 ( S3 )、 弹 性 
计算 云 (EC2 ) 和 弹性 MapReduce (EMR )。 单 纯 注册 任何 AWS 服 务 都 是 不 收费 的 ， 这 个 过 程 只 
是 让 您 的 账号 可 以 使 用 这 些 服 务 。 


PÁhttp://aws.amazon.com 页面 的 链接 转 到 S3 , EC2 、EMR 页 面 , 并 点 击 每 个 页 面 上 的 “Sign up" 
按钮 ， 然 后 按照 提示 操作 。 

















注意 ! 这 些 付费 服务 花 掉 的 是 真 金 白银 ! 


在 进一步 讨论 之 前 ， 重 要 的 是 要 明白 : 使 用 AWS 服 务 将 产生 费用 ， 这 些 费 
用 将 出 现在 您 的 Amazon 账 号 关联 的 信用 卡 。 大 部 分 费用 是 很 少 的 ， 它 会 随 着 消 
未 的 基础 设施 量 而 增加 。 在 S3， 存 储 10 GB 数 据 的 费用 是 存储 1 GB 数 据 的 10 倍 以 
E; 运行 20 个 EC2 实 例 的 费用 和 将 一 个 实例 运行 20 次 的 费用 相当 。Amazon 有 一 
a 个 层次 收费 模型 ， 所 以 实际 成 本 趋向 在 较 高 层次 产生 较 小 的 边际 增幅 ,但 是 ,你 
应 该 在 使 用 任何 服务 之 前 , 仔细 阅读 每 个 服务 的 定价 部 分 。 还 请 注意 ,目前 将 数 
据 从 AWS 服 务 ( 如 EC2 和 S3 ) 移出 是 收费 的 ,而 在 这 些 服 务 之 间 转 移 数 据 是 不 收 
费 的 。 这 就 意味 着 ,认真 设计 AWS 的 使 用 ， 在 尽 可 能 多 的 数据 处 理 环节 将 数据 
保留 在 AWS， 往 往 是 最 有 具 成 本 效益 的 。 


2.13 ”实践 环节 : 使 用 管理 控制 台 在 EMR 运行 WordCount 
让 我 们 直接 跳 到 EMR 的 例子 ， 它 使 用 了 一 些 自 带 的 示例 代码 。 执 行 下 列 步骤 。 


(1) 浏览 网 页 http:/aws.amazon.com， 访 问 Developers | AWS Management Console， 然 后 点 击 
Sign in to the AWS Console 按 钮 。 默 认 视 图 应 该 与 下 图 类 似 。 否 则 ， 点 击 Amazon S3, 








Be (dt yen lusotes donde (9p 





7. * 
rotes | -|iemat- | imde rennet | 8 hoon weh | Crag radoon.. | N irer ot mas. | reme | 8mm. x| [5-8 M Pen- ao- Te- Fi 
EI AWS Management Console » Amazon i - mi. 2 
ic VPC — Choudé/stcb Llestic Mapiürduce Coudliom Cloudhormalen Ros once SOS IMAM SS SiS 


garrytiou 


© select one of your buckets to the left to look at the objects It contains, 
or to upload objects into it. 


An amazoncom company 


Done Vi. Local intranet | Protonod Mode: Off "INC = 


(2) 如 以 上 截图 所 示 ， 点 击 “Create bucket” 按 钮 并 输入 新 建 桶 的 名 称 。 桶 的 名 称 对 所 有 AWS 
用 户 都 是 全 局 唯一 的 ， 因 此 一 些 很 明显 的 名 称 必然 是 不 可 用 的 ， 如 mybucket 或 s3test。 


(3) 点 击 Region 下 拉 菜 单 并 选择 最 近 的 地 理 区 域 。 
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Greate a Bucket - Select a Bucket Name and Region Cancel X 





A bucket is a container for objects stored in &mazon 









bucket, you can choose a Region to optimize for latency, minimize costs, or 
address regulatory SAUE MENEE For more information regarding bucket 
naming conventions, please visit the Amazon S3 documentation. 
Bucket Name: | aarrytiuse 

Region: Us Standard v 


Set Up Logging > ^ Create ^ Cancel 











(4) $ & Elastic MapReduce4£ 4f 5 3: Create a new Job Flow 按 钮 。 你 将 看 到 类 似 下 列 截图 
的 页 面 。 





Create a New Job Flow 





DEFINE JOB FLOW 
Creating a job flow to process your data using Amazon Elastic MapReduce is simple and quick. Let's begin by giving your job flow a 


name and selecting its type. If you don't already have an application you'd like to run on Amazon Elastic MapReduce, samples are 
available to help you get started. 





Job Flow Name*: [My Job Flow 


Job Flow Name doesn't need to be unique. We suggest you give it a descriptive name 


Create a Job Flow*: @ pun your own application "TN j 
Run your own application: specify your own 


parameters for your applications using Hive Program, 


C Run a sample application Custom JAR, Streaming or Pig Program 
Choose a Job Type z] Run a sample application: by selecting a sample 


application, parameters will be filled with the 
necessary data to create a sample Job Flow. 


* Required field 
Continue fg 











(5) 现在 ， 应 该 看 到 类 似 上 述 截 图 的 页 面 。 选 择 Run a sample application 单 选 按钮 ， 从 示例 
程序 下 拉 框 选择 Word Count (Streaming) 菜 单 ， 点 击 Continue 按 钮 。 








Greate a New Job Flow Cancel [X 
O 
SPECIFY PARAMETERS 


Specify Mapper and Reducer functions to run within the Job Flow. The mapper and reducers may be either (i) class names referring 
to a mapper or reducer class in Hadoop or (ii) locations in Amazon S3. (Click Here for a list of available tools to help you upload and 
download files from Amazon S3.) The format for specifying a location in Amazon S3 is bucket name/path, name. The location should 
point to an executable program, for example a python program. Extra arguments are passed to the Hadoop streaming program 
and can specify things such as additional files to be loaded into the distributed cache. 


Input Location*: [lasticmapreduce/samples/wordcount/input 


The URL of the Amazon S3 Bucket that contains the input files 


Output Location*: [artt use/wordcount/output/2011-11-02 


The URL of the Amazon S3 Buck 


Mapper*: elasticmapreduce/samples/wordcount/wordSplitter.py 


The mapper Amazon S3 location or streaming command to execute. 


Reducer*: |aggregate 


The reducer Amazon S3 location or streaming command to execute 





store output files, Should be unique 


Extra Args: n 


[^ 


Back * Required field 
Continue 84 











(6) 如 以 上 截图 所 示 ， 下 一 步 的 屏幕 允许 用 户 指定 作业 的 输出 位 置 。 在 输出 位 置 文本 框 中 ， 给 
入 步骤 1 创建 的 桶 的 名 称 (这 里 使 用 的 桶 的 名 称 为 garrytluse )， 然 后 点 击 Continue 按 钮 。 





Create a New Job Flow Cancel 





CONFIGURE EC2 INSTANCES 
Specify the Master, Core and Task Nodes to run your job flow. For more than 20 instances, complete the limit request form. 


Master Instance Group: This EC2 instance assigns Hadoop tasks to Core and Task Nodes and monitors their status 


Instance Type: |Small (m1.small) XÍ [^ Request Spot Instance 


Core Instance Group: 
Recommended for cap 


Instance Count: p 
Instance Type: |Small (m1.small) Y] [^ Request Spot Instances 


Task Instance Group (Optional): T 
needed on a temporary basis 


Instance Count: 5 
Instance Type: |Small (m1.small) Y| [^ Request Spot Instances 





and store data using the Hadoop Distributed File 









stances run Hadoop tasks, but do not p data. Recommended for capacity 





* Required field 








Continue È| 





(7) 在 下 一 步 的 页 面 中 ， 用 户 可 以 修改 作业 所 用 虚拟 主机 数 及 其 规格 。 确 保 每 个 组 合 框 的 实 
例 类 型 为 Small (ml.smalD ， 核 心 组 的 节点 数量 为 2， 任 务 组 的 节点 数量 为 0。 然 后 点 击 
Continue 按 钮 。 
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Create a New Job Flow 
O 
ADVANCED OPTIONS 


Here you can select an EC2 key pair, set your job flow debugging options, and enter advanced job flow details such as whether it 
is a long running cluster. 


Amazon EC2 Key Pair: |Proceed without an EC2 Key Pair 了 | 


Use an existing Key Pair to SSH into the master node of the Amazon EC2 cluster as the user "had 





Configure your debugging options. Learn more. 


Enable Debugging: C yes @ No 


Amazon $3 Log Path: 


An Amazon S3 Log Path is required if you are enabling debugging 


Enable Hadoop Debugging: € yes G No 
To enable Hadoop Debugging you will need to sign up for Amazon SimpleDB 


Set advanced job flow options. 


This job flow will run until manually terminated 


Keep Alive C Yes @ No 


< Back [——— — —m * Required field 
Continue fg 


(8)“ 下 一 步 ” 的 截图 包含 了 一 些 本 例 中 用 不 到 的 一 些 选 项 。 对 于 Amazon EC2 key pair E 3, 
选择 Proceed without key pair X € , 对 于 Enable Debugging 区 域 , 选 择 No。 确保 Keep Alive 
单 选 按 钮 被 设 为 No 并 单 击 Continue 按 钮 。 





Create a New Job Flow 
O 


BOOTSTRAP ACTIONS 


€ Proceed with no Bootstrap Actions 


I do not want to associate any Bootstrap Actions with this Job Flow. 


NOTE: Bootstrap Actions must be associated with a Job Flow upon creation. You will not be able to add these later 
without creating a new Job Flow. 


C Configure your Bootstrap Actions 


< Back (—— — —— — mm * Required field 
Continue 84 
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(9) 如 上 图 所 示 ， 用 户 现在 并 不 需要 在 “下 一 步 ” 页 面 做 太 多 工作 。 确 认 Proceed with no 
Bootstrap Actions 单 选 按钮 被 选中 并 点 击 Continue 按 钮 。 





Create a New Job Flow 





O 


REVIEW 

Please review the details of your job flow and click "Create Job Flow" when you are ready to launch your Hadoop Cluster. 

Job Flow Name: My Job Flow 

Type: word Count (Streaming) Edit Job Flow Definition 
Input Location: s3n://elasticmapreduce/samples/wordcount/input 

Output Location: s3n://garrytiuse/wardcount/output/2011-11-02 

Mapper: s3n://elasticmapreduce/samples/wordcount/wordSplitter.py 

Reducer: aggregate 

Extra Angs: zi Edit Job Flow Parameters 
Master Instance Type: m1.small Instance Count: 1 

Core Instance Type: m1.small Instance Count: 2 


Edit EC2 Confias 


Amazon EC2 Key Pair: 
Amazon S3 Log Path: 
Enable Hadoop Debugging: No 


Keep Alive: No Edit Advanced Options 
Bootstrap Actions: No Bootstrap Actions created for this Job Flow Edit Bootstrap Actions 

Note: Once you click "Create Job Flow," 
Bacl 


| Create Job Flow ü instances will be launched and you will be 
一 charged accordingly. 











(10) 确认 作业 流 的 设置 与 预期 一 致 ， 点击 Create Job Flow 按 钮 。 之 后 点 击 View my Job Flows 
echeck status 按 钮 。 这 样 会 列 出 用 户 的 所 有 作业 流 ， 用 户 可 筛选 只 显示 正在 运行 的 作 
业 或 已 结束 的 作业 。 默 认 设 置 是 显示 所 有 作业 ， 如 同 下 图 所 示 。 





Gv [S me mamaman 5 sx p: 
Be ik yew føote 1ods ib 
dp Festes 于 | | nm ree | emm | men neo... | a amne | roa nae... | S vemm t mas. | S enn ra: | 8t x| ja-a mco e et Te in 





MapReduc 





Kl AWS Management Console > Amazon Et 





Bet esostalk SI ICZ VPC  CloudwWatcb Moene Mani 





Caudron ClousKormation ROS — LlstCache SOS IAM SHS SES 





eye 国 stes eo (Create New dob Pow 2 J Sonta Dhanesh | re 
U — HN 1 ta 2 af 2 Job Fiows 

Name State Creation Oste Elapsed Time Mormallzed instance Hours 

My Job Flow 9 STARTING 200111-022248 UTC— ÜhouwsÜmimutes O 
F My dob Flow 3 COMPLETED. 2011-11-01 0022 UTC D hours 3 minutes 


0 Job Flows selected 
Multiple Jobfiows selected, Choose a single Jobfiow to view individual detai. 


seon ary holey sms ct use — An amazoncom company 





etesljcongeie aves amaron com elasticbeanstih home j | T AE aent anet (Protected Mode: Of FTIR e 
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(11) 不 时 地 点 击 Refresh 按 钮 ， 直 到 列 出 的 作业 状态 从 Running 或 Starting 交 为 Complete， 然 
后 点 击 其 复 选 框 查看 作业 流 的 详情 ， 如 下 图 所 示 。 











after EJ ree Jemen | ee ion. | a amas | nacre Sv rtr. | ttt ET 用 x| [5-8 mo be- dlee Teh- T 
GI AWS Management Console » Amazon Elastic MapReduce d Tackimgun * ^ nalo = 


tG WC — Cloudvisich teas Mapissse Clowdironi Clowdlormatien BIS — (lastiCachel 








$68 Wa ds S 
Mom E iste v i) Create New dot Fire LE rey Tomem Samen e 
GEM E — — — 4 4 itezaof2lohTows 5 
Name Stam Crwatlon Date EnPeed Tima Nermalized Instance Heurs 
同 My Jub Flow D COMPLETED 204-1422248UTC — Ühours4meutes 3 
[^o My adoh Finaw © COMPLETED 20041010022UT€.— Dhows3mexes 3 


1 Job Flow selected 


@ Job Aow ] 
Lost State Change Reason: Steps completed 
Description || Steps | Bootstrap Actions Instance Groups 
Name: My Job Flos Creation Date: 
Start Date: 2011-1102 22:53 uTC 


Enid Datr: 


fevdbock Suppor: 








An amazoncom company 
Due 


|o T R a Mode: DIT FE 一 


(12) 点 击 S3 标 签 并 选择 你 为 输出 位 置 所 创建 的 容器 。 看 到 它 有 一 个 称 为 wordcount 的 入 


口 ， 这 是 一 个 路 径 。 右 击 它 并 选择 Open。 然 e 人 A, 
它们 遵守 类 似 Hadoop 的 part-nnnnn 命 名 规则 ， 


» 


5 








AS AWS Management Console » Amazon S3 





E02 WPG Ceopeten fiewucMapleerer Cudira CluudFuraboe RI — HesCade SOS Wi S SES 






ig Create Bucket Arnone » 


Q unoad  ($ Cresto foor Actons + 


T Romen Ọ Properes @ transen 全 Hep 
b onde b garryttuse > |.) wordcount > (3 output > |J 2011-11-01 


Sho Lan Modified 
3 part-00000 913x5 Tue Nov 61 00:29:09 GMT«000 2011 
3 pert onont 98.4 KB Tus Nov 01 00/29/13 GMT 000 2011 
J bart-0U00Z LII 


Tue Nov 01 00:29:10 GMT-H000 2011 
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右 击 并 打开 part-00000。 它 应 该 看 起 来 与 下 列 内 容 类 似 : 


A& Local intranet | Protected Mode: Of Pasik = 





č ltek 


a 14716 
aa 52 
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aargau 
abad 
abandoned 
abandonment 
abate 

abauj 
abbassid 
abbes 

abbl 


Oo 


UJ C) 4f C) XO Oy d£ ww 


这 种 类 型 的 输出 看 起 来 是 不 是 有 点 熟悉 ? 


原理 分 析 


第 1 个 步骤 是 针对 S3 进 行 的 ， 而 非 EMR。S3 是 一 个 可 扩展 的 存储 服务 ， 它 允许 用 户 在 叫做 桶 
的 容器 内 存储 文件 〈 称 为 对 象 )， 并 使 用 桶 和 对 象 的 键 〈 也 就 是 名 称 ) 来 访问 对 象 。 该 模型 类 似 
于 文件 系统 的 使 用 情况 ， 虽 然 也 有 潜在 的 差异 ,但 这 些 区 别 在 本 书 中 并 不 重要 。 


S3 是 放置 MapReduce 程 序 及 待 处 理 的 源 数据 的 地 方 ， 也 是 存储 输出 数据 及 EMR Hadoop 作 业 
日 志 的 地 方 。 有 大 量 的 第 三 方 工具 可 以 访问 S3 ， 但 在 这 里 我 们 使 用 AWS 管 理 控制 台 ， 它 是 访问 
大 多 数 AWS 服 务 的 浏览 器 界面 。 


虽然 我 们 建议 用 户 为 S$3 选 择 最 近 的 地 理 区 域 ,但 这 不 是 必需 的 。 美 国之 外 的 地 区 ，Amazon 
通常 会 为 接近 它们 的 客户 提供 较 小 的 延迟 , 但 用 户 也 往往 需要 支付 略 高 的 费用 。 在 什么 地 方 托管 
数据 和 应 用 程序 ， 需 要 用 户 综合 考虑 所 有 因素 后 决定 。 


创建 $3 存储 桶 后 ， 我 们 转 到 EMR 控 制 台 并 创建 了 一 个 新 的 作业 流 。 在 EMR， 这 个 术语 用 来 
指 代 一 个 数据 处 理 任务 。 正 如 我 们 将 要 看 到 的 , 它 可 以 是 一 个 一 次 性 作业 , 底层 的 Hadoop 集 群 按 
需 创建 和 销毁 ; 也 可 以 是 一 个 长 期 运行 的 集群 ， 在 它 上 面 执行 着 多 个 作业 。 


我 们 保留 了 了 默认 的 作业 流 名 称 , 然后 选择 使 用 一 个 示例 应 用 程序 。 在 这 个 案例 中 , 示例 程 
序 是 用 Python 实现 的 字数 统计 程序 WordCount。Hadoop Streaming 是 指 一 种 机 制 , 它 人 允许 使 用 脚本 
语言 编写 map 和 reduce 任 务 ， 但 功能 与 我 们 先前 使 用 的 Java 字 数 统计 程序 相同 。 


配置 作业 流 的 表单 需要 填写 源 数据 和 程序 的 位 置 ，map 和 reduce 类 的 位 置 及 所 需 的 输出 数据 
的 位 置 。 对 于 我 们 刚刚 看 到 的 这 个 例子 ,大 多 数 区 域 都 是 预先 填 好 的 ， 可 以 看 出 ， 这 与 在 命令 行 
中 运行 本 地 Hadoop 所 需 的 内 容 ， 有 明显 的 相似 之 处 。 

通过 不 选择 Keep Alive 选 项 ,我 们 创建 了 一 个 一 次 性 Hadoop 集 群 ， 它 专门 为 执行 本 作业 而 创 
建 ， 作 业 完 成 后 就 会 被 销毁 。 这 类 集群 的 启动 时 间 较 长 ， 但 会 最 大 限度 地 降低 成 本 。 如 果 您 选择 
保持 作业 流 活 跃 ， 你 会 看 到 更 多 的 作业 被 更 迅速 地 执行 ， 因 为 你 不 必 等 待 集群 启动 。 但 是 你 需要 
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为 EC2 基 础 资源 支付 费用 ， 直 到 明确 地 终止 该 作业 流 。 


在 确认 之 后 ， 我 们 不 需要 添加 任何 附加 的 启动 选项 。 我 们 选择 了 和 希望 部 署 在 Hadoop 集 群 的 
主机 类 型 和 主机 数 。EMR 有 3 组 不 同 的 主机 。 




















口 主 实例 组 : 这 是 一 个 承载 着 NameNode 和 JobTracker 的 控制 节点 。 主 实例 组 中 只 有 1 个 这 样 
的 节点 。 

口 核心 实例 组 : 这 些 实例 是 运行 着 HDFS DataNode 和 MapReduce TaskTracker 的 节点 。 这 些 主 
机 的 数量 是 可 配置 的 。 

口 任务 实例 组 : 这 些 主机 不 持 有 HDFS 数 据 , 却 运 行 TaskTracker, 并 能 提供 更 多 的 处 理 能 力 。 
主机 的 数量 是 可 配置 的 。 














主机 类 型 代表 着 不 同 级 别 的 硬件 能 力 ,详细 内 容 可 在 EC2 页 面 上 找到 。 较 大 的 主机 有 较 强 的 
运算 能 力 ， 同 时 价格 也 较 高 。 目 前 ， 默 认 情况 下 ,一 个 作业 流 的 主机 总 数 一 定 小 于 等 于 20 个 , 但 
亚马逊 有 一 种 简单 的 形式 可 以 申请 更 高 的 限制 。 


确认 后 ,一 切 都 如 预期 ， 我 们 启动 作业 流 并 在 控制 合 上 查看 其 运行 状况 ， 直 到 状态 变 为 
COMPLETED。 这 时 ， 我 们 回 到 S3 ， 查 看 由 我 们 指定 的 作为 输出 目标 的 桶 ， 并 检查 字数 统计 作 
业 的 输出 。 它 应 当 与 本 地 Hadoop 的 字数 统计 的 输出 看 起 来 非常 相似 。 


一 个 明显 的 问题 是 , 源 数据 来 自 哪 里 ?这 是 作业 流 设置 中 的 一 个 预 填充 字段 , 我 们 在 创建 作 
业 流 的 过 程 中 看 到 过 。 对 于 非 持久 性 的 作业 流 , 最 常见 的 模型 是 ， 从 一 个 指定 的 S3 源 位 置 读 取 数 
据 并 将 所 得 到 的 数据 写 人 到 指定 的 结果 S3 桶 中 。 

这 就 是 AWS 管 理 控制 台 ! 它 允 许 用 户 通过 浏览 器 对 服务 ( 如 S3 和 EMR ) 进行 细 粒 度 的 控制 。 
仅 需 拥有 一 个 浏览 器 和 一 张 信 用 卡 , 我 们 就 可 启动 Hadoop 作 业 来 处 理 数据 , 无 需 担心 安装 、 运 行 、 
管理 Hadoop 的 任何 机 制 问题 。 










































































一 展 身手 : 其 余 EMR 示 例 程序 
EMR 提 供 了 其 他 几 个 示例 应 用 程序 ， 为 什么 不 同时 试 试 它们 呢 ? 


2.13.1 使 用 EMR 的 其 他 方式 


虽然 AWS 管 理 控制 台 是 一 个 强大 的 和 令 人 印象 深刻 的 工具 ， 它 并 不 总 是 我 们 想 要 用 来 访问 
S3 和 运行 EMR 作 业 的 方式 。 如 同 所 有 的 AWS 服 务 ， 用 户 可 通过 可 编程 的 工具 或 命令 行 工具 来 使 
用 这 些 服 务 。 


1. AWS 证 书 
然而 ， 在 使 用 可 编程 工具 或 命令 行 工具 之 前 ， 我 们 需要 明白 账号 持 有 人 如 何 通过 AWS， 从 
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而 提出 服务 申请 。 因 为 这 些 都 是 收费 服务 , 用 户 确实 不 希望 其 他 任何 人 以 他 们 的 名 义 提出 服务 申 
请 。 请 注意 ， 在 之 前 的 例子 中 ， 我 们 用 自己 的 AWS 账 号 直接 登录 到 AWS 管 理 控制 台 ， 因 此 无 需 
担心 这 个 问题 。 








每 个 AWS 账 号 都 有 若干 个 标识 符 ， 这 些 标 识 符 会 在 访问 这 些 服 务 的 时 候 用 到 。 


O 账号 ID: 每 个 AWS 账 号 都 有 一 个 数字 ID 。 

a 访问 秘 钥 : 每 个 账号 都 有 一 个 关联 的 访问 秘 钥 ， 它 用 于 申请 服务 时 的 账号 验证 。 
口 秘密 访问 秘 钥 : 秘密 访问 秘 钥 是 访问 秘 钥 的 搭档 。 访 问 秘 钥 并 不 是 私密 的 ， 它 会 暴露 在 
服务 请 求 过 程 中 ， 但 是 秘密 访问 秘 钥 只 由 账号 主人 保管 ， 可 用 于 证 明 账 号 主人 的 身份 。 
口 密 钥 对 : 这 是 用 于 登录 到 EC2 主 机 的 密 钥 对 。 既 可 以 在 EC2 中 生成 公 钥 / 私 钥 密 钥 对 ,也 可 
以 将 外 部 生成 的 密 钥 对 导入 到 系统 中 。 


似乎 听 起 来 有 点 乱 , 实际 情况 确实 如 此 一 一 至 少 第 一 次 接触 时 是 这 样 的 。 然 而 ， 当 使 用 工具 
访问 AWS 服 务 时 , 通常 只 要 事先 将 正确 的 证 书 加 入 配置 文件 , 一 切 都 会 正常 工作 。 但 是 ， 如 果 读 
者 决定 深入 研究 可 编程 工具 或 命令 行 工具 , 值得 投入 一 点 时 间 来 阅读 每 个 服务 的 文档 , 以 了 解 其 
安全 机 制 的 工作 原理 。 

2. EMR 命 令 行 工 具 

本 书 中 ， 我 们 不 会 用 S3 和 EMR 来 实现 任何 不 能 从 AWS 管 理 控 制 台 实现 的 事情 。 然 而 ， 当 处 
理 业 务工 作 负载 , 整合 其 他 工作 流程 或 自动 化 访问 服务 时 , 无 论 基于 浏览 器 的 工具 有 多 强大 , 它 
都 不 适用 于 这 样 的 问题 。 使 用 服务 的 直接 编程 接口 可 以 实现 最 精细 的 控制 , 但 却 需要 付出 最 多 的 
努力 。 


Amazon 为 许多 服务 提供 了 一 组 命令 行 工具 ， 这 是 一 种 自动 访问 AWS 服 务 的 有 效 方式 ， 可 以 
最 大 限度 地 减少 所 需 的 开发 工作 量 。 如 果 读 考 想 再 实现 一 个 基于 CLI 的 EMR 接 口 ， 却 又 不 想 编写 
自 定义 代码 的 话 ， 可 以 试 试 链接 于 EMR 主 页 面 的 弹性 MapReduce 命 令 行 工具 。 



















































































2.13.2 AWS 生 态 系统 


每 种 AWS 服 务 都 有 大 量 的 第 三 方 工具 、 服 务 和 函数 库 ， 它 们 可 以 提供 访问 服务 的 不 同方 式 、 
额外 的 功能 ， 或 新 的 实用 程序 。 作 为 熟悉 AWS 生 态 系 统 的 起 点 ,请 到 http://aws.amazon.com/ 
developertools 页 面 查看 开发 人 员工 具 集 。 








2.14 本 地 Hadoop 与 EMR Hadoop 的 对 比 


有 了 关于 本 地 Hadoop 集 群 及 EMR Hadoop 集 群 的 第 一 次 经 验 后 , 这 是 一 个 考虑 这 两 种 方法 差 
异 的 好 时 机 。 
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二 者 的 差异 可 能 是 明显 的 ， 其 关键 区 别 并 不 在 于 能 力 。 如 果 我 们 需要 的 是 一 个 运行 
MapReduce 作 业 的 环境 ， 任 何 一 种 方法 都 没 问 题 。 相 反 ， 主 要 的 区 别 点 在 第 1 章 中 曾 提 及 的 一 个 
话题 , 那 就 是 : 你 是 喜欢 一 个 包含 前 期 基础 设施 费用 以 及 持续 的 维护 工作 的 成 本 模型 ， 还 是 喜欢 
一 个 具有 较 低 维护 负担 、 可 快速 实现 的 、 理 论 上 具有 无 限 扩展 性 的 按 需 付 费 的 成 本 模型 。 除 了 成 
本 因素 外 ， 要 牢记 以 下 几 点 内 容 。 


口 EMR 支 持 特定 版 本 的 Hadoop ， 并 会 随 着 时 间 推 移 升 级 Hadoop 版 本 。 如 果 用 户 需要 某 个 特 
定 的 版 本 ， 尤 其 是 ， 如 果 用 户 需要 在 新 版 本 发 布 后 马上 获得 最 新 、 最 稳定 的 版 本 ， 那 么 
EMR Hadoop 升 级 到 所 需 版 本 之 前 的 时 间 间 隔 是 用 户 不 可 接受 的 。 

a 用 户 可 以 启动 一 个 持久 的 EMR 作 业 流 ， 并 将 其 视 为 一 个 本 地 Hadoop 集 群 ， 登 录 到 主机 节 
点 ， 并 调整 它们 的 配置 。 如 果 你 发 现 自 己 正在 这 样 做 ,值得 好 好 考虑 一 下 ， 果 真 需要 这 
样 控制 Hadoop 集 群 吗 ? 如 果 答 案 是 肯定 的 ,那么 从 本 地 Hadoop 转 到 EMR 带 来 的 成 本 优势 
是 否 依然 存在 ? 

口 如 果 它 最 终归 结 为 成 本 问题 ， 切 记 要 考虑 本 地 集群 的 所 有 隐 性 成 本 ， 人 们 通常 会 忘掉 这 
些 隐 性 成 本 。 想 想 电力 、 场 地 、 制 冷 和 主机 设备 的 费用 。 且 不 说 管理 开销 ， 如 果 设 备 在 
凌晨 出 现 故障 ， 管 理 成 本 也 是 一 笔 不 小 的 开销 。 
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本 章 内 容 讲述 了 如 何 安装 并 运行 一 个 Hadoop 集 群 ， 以 及 在 Hadoop 集 群 上 执行 MapReduce 程 
序 的 步骤 。 


具体 来 说 ， 我 们 讨论 了 在 本 地 Ubuntu 主机 上 运行 Hadoop 的 前 提 条 件 ， 也 介绍 了 如 何以 独立 
式 或 伪 分 布 式 模式 安装 和 配置 本 地 Hadoop 集 群 。 之 后 ,我 们 讲解 了 如 何 访问 HDFS 文 件 系统 和 提 
交 MapReduce 作 业 。 然 后 ,我 们 继续 前 进 ， 学 习 了 访问 弹性 MapReduce 和 其 他 AWS 服 务 需要 用 到 
的 账号 。 


我 们 了 解 了 如 何 使 用 AWS 管 理 控 制 台 浏览 并 创建 $3 桶 和 对 象 ， 以 及 如 何 创 建 一 个 作业 流 并 
用 它 在 EMR 托 管 的 Hadoop 集 群 上 执行 MapReduce 人 作业。 我们 还 讨论 了 访问 AWS 服 务 的 其 他 方式 ， 
并 研究 了 本 地 Hadoop 和 EMR 托 管 Hadoop 之 间 的 差异 。 


既然 我 们 已 经 学 习 了 在 本 地 或 EMR 和 运行 Hadoop 的 方法 ,我 们 已 经 准备 好 开始 编写 自己 的 
MapReduce 程 序 了 ， 这 将 是 下 一 章 的 主题 。 




















第 3 章 


理解 MapReduce 








前 两 章 讨论 了 Hadoop 可 以 解决 的 问题 ， 并 有 了 一 些 运行 MapReduce 示 例 
作业 的 实践 经 验 。 在 此 基础 上 ， 接 下 来 我 们 继续 深入 研究 。 


通过 本 章 学 习 ， 读 者 将 会 : 


口 理解 键 值 对 为 何 可 以 成 为 Hadoop 任 务 的 基础 ; 

口 了 解 MapReduce 作 业 的 多 个 阶段 ; 

口 详细 探讨 map 、reduce 以 及 可 选 组 合 阶段 的 工作 原理 ; 

a 学 习 Hadoop JavaAPI， 并 用 它 开 发 一 些 简单 的 MapReduce 作 业 ; 
口 了 解 Hadoop 的 输入 和 输出 。 





3.1 EX 


自 第 1 章 开 始 ， 我 们 一 直 在 谈论 以 键 值 对 的 形式 处 理 数据 并 输出 结果 ， 而 没有 解释 为 什么 要 
以 键 值 对 的 形式 进行 。 现 在 是 时 候 来 前 述 这 个 问题 了 。 














首先 ， 我 们 会 通过 强调 Java 标 准 库 中 的 类 似 概 念 ， 来 前 明 我 们 所 说 的 键 值 对 的 含义 。 
java.util.Map 接 口 是 常 用 类 , 如 HashMap, 甚至 原始 Hashtable 的 父 类 ( 通过 向 后 重 构 代 码 库 )。 


对 于 任何 Java Map 对 象 ， 其 内 容 是 从 指定 类 型 的 给 定 键 到 相关 值 的 一 组 映射 ， 键 与 值 的 数据 类 
型 可 能 不 同 。 例 如 ， 一 个 HashMap 对 象 可 以 包含 从 人 名 〈String ) 到 其 生日 (Date ) 的 一 组 映射 。 


Hadoop 中 的 数据 包含 与 相关 值 关 联 的 键 。 这 些 数据 的 存储 方式 允许 对 数据 集 的 不 同 值 根据 
键 进行 分 类 和 重 排 。 如 果 使 用 键 值 对 数据 ， 应 该 会 有 如 下 疑问 : 
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a 在 数据 集中 ， 一 个 给 定 的 键 必然 有 映射 值 吗 ? 
a 给 定 键 的 关联 值 是 什么 ? 
O 键 的 完整 集合 是 什么 ? 


回忆 一 下 前 一 章 提 到 的 WordCount。 稍 后 ， 我 们 将 更 详细 地 讨论 它 ， 然 而 该 程序 的 输出 显然 
是 键 / 值 关 系 的 集合 。 对 于 每 个 字 ( 键 )， 都 有 对 应 着 它 出 现 的 次 数 〈 值 )。 琢磨 一 下 这 个 简单 的 
例子 ， 键 / 值 数 据 的 一 些 重 要 特征 就 变 得 清晰 起 来 ， 具 体 如 下 : 
口 键 必须 是 唯一 的 ， 而 值 并 不 一 定 是 唯一 的 ; 
Q 每 个 值 必须 与 键 相 关联 , 但 键 可 能 没有 值 ( 虽然 在 这 个 特定 的 例子 中 没有 出 现 这 种 情况 ); 
a 对 键 进行 明确 定义 非常 重要 。 它 决定 了 计数 是 否 区 分 大 小 写 ， 这 将 产生 不 同 的 结果 。 












































请 注意 , 我 们 需要 审慎 对 待 “ 键 是 唯一 的 ”这 一 概念 。 这 并 不 是 说 键 只 出 现 

> 一次。 在 我 们 的 数据 集中 ， 可 以 看 到 键 多 次 出 现 。 并 且 我 们 将 看 到 ，MapReduce 

模型 有 一 个 将 所 有 与 特定 键 关联 的 数据 汇集 的 步 又。 键 的 唯一 性 保证 了 ,假如 我 

们 为 菜 一 给 定 键 汇集 对 应 的 值 , 结果 将 是 从 该 键 的 实例 到 每 个 值 的 映射 ,不 会 忽 
略 掉 任 何 值 。 


3.1.2 为 什么 采用 键 / 值 数 据 


键 / 值 数据 作为 MapReduce 操 作 的 基础 , 成 就 了 一 个 强大 的 编程 模型 , 使 MapReduce 获 得 了 令 
人 惊讶 的 广泛 应 用 。Hadoop 和 MapReduce 被 多 种 不 同行 业 和 问题 领域 所 采用 即 证 实 了 这 一 点 。 很 
多 数据 要 么 本 身 即 为 键 / 值 形式 ， 要 么 可 以 以 键 / 值 这 种 方式 来 表示 。 键 值 数 据 这 一 简单 的 模型 具 
有 广泛 的 适用 性 ， 以 这 种 形式 定义 的 程序 可 以 应 用 于 Hadoop 框 架 。 


当然 ， 数 据 模型 本 身 并 非 是 使 Hadoop 如 此 强大 的 唯一 要 素 ， 它 真正 的 强大 之 处 在 于 如 何 运 
用 并 行 处 理 技术 以 及 分 而 治之 思想 ， 这 些 都 在 第 1 章 中 讨论 过 。 我 们 可 以 在 大 量 主机 上 储存 、 执 
行 数 据 ， 甚 至 使 用 将 较 大 任务 分 割 成 较 小 任务 的 框架 ， 然 后 将 所 有 的 并 行 结果 整合 成 最 终结 论 。 
但 是 ,我 们 需要 上 述 框架 提供 一 种 描述 问题 的 方法 ， 即 便 用 户 不 懂 该 框架 的 运行 机 理 ， 也 能 表述 
清楚 要 人 处理 的 问题 。 我 们 只 需 对 数据 所 需 的 转换 进行 描述 ， 其 余 事 情 由 该 框架 完成 MapReduce 
利用 其 键 / 值 接口 提供 了 这 样 的 抽象 : 程序 员 只 需 指定 所 要 求 的 转换 ，Hadoop 完 成 对 任意 规模 数 
据 集 的 复杂 的 数据 转换 处 理 过 程 。 


一 些 实际 应 用 
为 了 更 为 具体 地 理解 键 值 对 ， 可 以 想像 一 些 实际 应 用 的 键 值 对 数据 ; 
口 通讯 夭 将 一 个 名 字 ( 键 ) 和 联系 方式 ( 值 ) 关联 起 来 ; 
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a 银行 帐号 使 用 一 个 帐号 E) 关联 帐户 明细 ( 值 ); 
口 一 本 书 的 索引 关联 一 个 关键 字 CBE) 和 其 所 在 页 码 ( 值 ); 
a 在 计算 机 文件 系统 中 ,根据 文件 名 ( 刍 ) 访问 各 类 数据 ， 如 文本 、 图 片 和 语音 E )。 


我 们 刻意 列举 了 一 些 范 围 宽泛 的 例子 ， 帮 助 读者 认识 到 ， 键 / 值 数据 并 不 是 只 能 应 用 于 高 端 
数据 挖掘 的 约束 模型 ， 而 是 环绕 我 们 身边 的 非常 普通 的 模型 。 

我 们 之 所 以 大 篇 幅 地 讨论 键 值 对 数据 ， 是 因为 深入 理解 键 值 对 的 概念 对 理解 并 使 用 Hadoop 
非常 重要 。MapReduce 只 能 处 理 以 键 值 对 形式 描述 的 数据 。 
































3.1.3 ”MapReduce 作 为 一 系列 键 / 值 变换 


读者 可 能 偶然 见 过 把 MapReduce 描 述 成 一 系列 键 / 值 转换 的 描述 方法 。 这 种 描述 方法 看 上 去 
有 点 吓人 。 
(K1,V1) -> (K2, List«V2») -> (X3,V3) 


现在 我 们 试图 去 理解 上 式 所 表达 的 意思 。 


口 MapReduce 作 业 的 map 方 法 的 输入 是 一 系列 键 值 对 ， 称 之 为 KL 和 V1。 

口 map 方 法 的 输出 (今后 作为 reduce 方 法 的 输入 ) 是 一 系列 键 以 及 与 之 关联 的 值 列 表 ， 称 
之 为 K2 和 V2 。 需 要 注意 的 是 ， 每 个 mapper 仅 仅 输出 一 系列 单个 的 键 值 对 ， 它 们 通过 
shuffle 方 法 组 合成 键 与 值 列表 。 

口 MapReduce 作 业 的 最 终 输出 是 另 一 串 键 值 对 ， 称 之 为 K3 和 V3 。 


这 些 键 值 对 的 集合 可 能 相同 也 可 能 不 同 , 也 就 是 说 , 很 可 能 输入 姓名 和 联系 方式 然后 输出 相 
同 内 容 ， 也 许 附 带 有 一 些 用 于 整理 信息 的 中 间 格 式 。 请 在 接 下 来 探索 MapReduce 的 Java API 时 记 
住 这 个 3 阶段 模型 。 首先, 我 们 会 浏览 将 要 用 到 的 API 的 主要 部 分 ,然后 系统 削 析 一 个 MapReduce 
作业 的 执行 过 程 。 
















































































随 堂 测验 : 键 值 对 


问题 1 键 值 对 的 概念 是 什么 ? 
(1) Hadoop 创 造 并 专用 的 概念 。 
(2) 表述 我 们 经 常 看 到 但 并 没有 这 样 考虑 的 事物 间 关 系 的 一 种 方法 。 
(3) 一 个 计算 机 科学 的 学 术 概 念 。 
问题 2 用 户 名 /密码 组 合 是 键 值 对 的 一 个 例子 吗 ? 
(1) 是 的 ， 这 是 一 个 值 与 另 一 个 值 相关 联 的 明显 例子 。 
(2) 不 是 ， 密 码 更 像 是 用 户 名 的 一 个 属性 ， 它 们 之 间 没 有 索引 -类 型 的 关系 。 
(3) 通常 我 们 并 不 这 样 认为 ， 但 是 Hadoop 仍 可 将 用 户 名 /密码 组 合作 为 键 值 对 组 合 来 处 理 。 
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3.2 MapReduce 的 Hadoop Java API 


Hadoop API 在 0.20 版 发 生 了 重大 变化 ， 构 成 了 本 书 使 用 的 Hadoop 1.0 版 的 主要 接口 。 虽 然 之 
前 的 API 功 能 运转 正常 ， 但 社会 各 界 认 为 ， 它 在 某 些 方面 是 笨拙 的 且 被 和 弄 得 不 必要 的 复杂 。 


新 API， 有 时 也 称 为 上 下 文 对 象 ， 其 原因 我 们 将 在 后 面 看 到 ， 它 是 使 用 Java 开 发 MapReduce 
的 未 来 趋势 。 因 此 ， 本 书 将 尽量 使 用 新 API。 需 要 注意 的 是 : 部 分 0.20 之 前 的 MapReduce 库 没有 
被 移植 到 新 API， 所 以 当 我 们 需要 分 析 其 中 任何 接口 时 ， 将 使 用 旧 API。 


























0.20 MapReduce Java API 


在 org.apache.hadoop .maptreduce 包 或 其 子 包 中 ， 包 含 了 0.20 及 以 上 版 本 的 MapReduce 
API 实 现 的 大 部 分 关键 类 和 接口 。 


org.apache.hadoop. mapreduce 包 提供 了 Mapper 和 Reducer 基 类 ，。 在 大 多 数 情 况 下 ， 
个 MapReduce 作 业 会 继承 上 述 基 类 ， 实 现 针对 该 作业 的 Mapper 和 Reducer 子 类 。 











虽然 最 近 的 Hadoop API 使 用 了 KEYIN/VALUEIN 和 KEYOUT/VALUEOUT 之 类 
的 术语 ， 但 由 于 K1/K2/K3/ 等 术语 有 助 于 理解 端 到 端的 数据 流 ， 本 书 将 坚持 使 
用 K1/K2/K3/ 等 形式 的 术语 。 


1. Mapper% 
这 是 Hadoop 提 供 的 Mapper 基 类 的 缩减 视图 。 自 定义 的 mapper 类 的 实现 将 继承 该 基 类 并 重 写 
指定 的 方法 ， 如 下 所 示 : 


class Mapper«K1, V1, K2, V2» 
{ 








void map(K1 key, V1 value Mapper.Context context) 
throws IOException, InterruptedException 
(4.2) 
J 
虽然 使 用 Java 谤 型 使 该 类 乍 看 起 来 有 些 难 以 理解 , 其 实 没 那么 复杂 。 该 类 以 键 / 值 数据 作为 输 
入 和 输出 类 型 ， 其 map 方 法 以 输入 的 键 值 对 作为 参数 。 另 一 个 参数 是 context 类 的 实例 ， 它 提供 
了 与 Hadoop 框 架 通 信 的 多 种 机 制 ， 其 中 之 一 是 输出 map 或 edquce 方 法 的 结果 。 


有 时 ， 用 户 可 能 需要 重 写 另 外 3 个 方法 。 














protected void setup( Mapper.Context context) 
throws IOException, Interrupted Exception 
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请 注意 , map 方法 只 引用 了 K1 和 V1 键 值 对 的 一 个 实例 。 这 是 MapReduce 范 式 
的 一 个 关键 特点 ,在 这 个 范式 下 ,用 户 编写 处 理 单条 记录 的 类 ,框架 负责 将 巨大 
的 数据 集 转化 为 键 值 对 流 的 所 有 工作 。 读 者 永远 不 必 编 写 处 理 完 整数 据 集 的 map 
S 或 Teduce 类 。Hadoop 也 通过 InputFormat 和 OutputFormat 类 提供 了 类 似 机 
qd], 这 些 类 提供 了 普通 文件 格式 的 实现 , 除 特 殊 文件 类 型 外 ,用 户 无 需 编写 文件 

解析 器 。 








该 方法 在 任何 键 值 对 被 提交 给 map 方 法 之 前 ， 被 调用 一 次 。 该 方法 的 默认 实现 不 执行 任何 








protected void cleanup( Mapper.Context context) 
throws IOException, Interrupted Exception 


该 方法 在 所 有 键 值 对 被 提交 给 map 方 法 之 后 ， 被 调用 一 次 。 该 方法 的 默认 实现 不 执行 任何 











protected void run( Mapper.Context context) 
throws IOException, Interrupted Exception 


此 方法 控制 JVM 中 任务 处 理 的 总 体 流 程 。 该 方法 的 默认 实现 将 在 对 数据 分 块 中 的 每 个 键 值 对 
反复 调用 map 方 法 之 前 ， 调 用 一 次 setup 方 法 ， 并 最 终 调用 一 次 cleanup 方 法 。 











下 载 示 例 代 码 
1 
K 读者 可 以 使 用 http://www.packtpub.com 的 账号 下 载 所 购买 的 所 有 Packt 书 籍 
的 示例 代码 文件 。 或 者 访问 http://www.packtpub.com/support， 并 在 该 页 面 注 册 ， 


读者 将 收 到 通过 电子 邮件 寄 来 的 示例 代码 文件 。 


2. Reducer 类 


Reducer 基 类 的 运行 与 Mapper 基 类 非常 相似 ， 通 常 子 类 仅 需 重 写 
Reducer 基 类 的 缩 略 定义 如 下 : 





^" reduceJr 1X, 





4 


public class Reducer«K2, V2, K3, V3» 
t 
void reduce(K1 key, Iterable«V2» values, 
Reducer.Context context) 
throws IOException, InterruptedException 
Teed 
} 


再 次 注意 ， 该 类 以 更 广泛 的 数据 流 的 形式 进行 定义 (reduce 方 法 接受 Kk2/V2 作 为 输入 ， 并 
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提供 K3/V3 作 为 输出 )， 而 实际 redquce 方 法 只 需要 一 个 键 及 与 之 关联 的 值 列 表 。 同 样 Context 
对 象 负责 输出 该 方法 的 结果 。 

该 类 也 有 setup、run 和 cleanup 方 法 , 这 些 方法 的 默认 实现 与 Mapper 类 的 类 似 , 可 以 选择 
性 地 进行 重 写 : 


protected void setup( Reduce.Context context) 
throws IOException, InterruptedException 


该 方法 在 任何 键 / 值 列表 被 提交 给 reduce 方 法 之 前 , 被 调用 一 次 。 其 默认 实现 不 执行 任何 








protected void cleanup( Reducer.Context context) 
throws IOException, InterruptedException 


该 方法 在 所 有 键 / 值 列表 被 提交 给 redquce 方 法 之 后 , 被 调用 一 次 。 其 默认 实现 不 执行 任何 











protected void run( Reducer.Context context) 
throws IOException, InterruptedException 


该 方法 对 JVM 中 任务 处 理 的 总 体 流程 进行 控制 ,其 默认 实现 在 对 提供 给 Reducer 类 的 众多 键 
值 对 反复 调用 reduce 方 法 之 前 ， 调 用 setup 方 法 ， 并 在 最 后 调用 cleanup 方 法 。 








3. Driver 类 


除 Mapper 和 Reducer 类 外 ， 执 行 MapReduce 作 业 还 需要 男 外 一 段 代 码 一 一 负责 与 Hadoop 框 
架 通信 并 指定 运行 MapReduce 作 业 所 需 的 配置 元 素 的 驱动 程序 。 驱 动 程 序 的 工作 涉及 多 个 方面 ， 
例如 告诉 Hadoop 使 用 哪个 Mapper 和 Reducer 类 ， 以 何 种 格式 在 何 处 获取 输入 数据 ， 在 何 处 存放 
输出 数据 ， 以 及 如 何 对 输出 数据 进行 格式 化 。 驱 动 程序 还 负责 设置 其 他 各 种 配置 选项 ， 本 书 将 会 
讲 到 它们 。 


作为 一 个 子 类 ，Driver 没 有 默认 父 类 。 驱 动 逻 辑 通 常 存在 于 封装 MapReduce 作 业 类 的 主 方法 
中 。 下 述 代 码 片 段 是 一 个 示例 驱动 程序 。 读 者 不 必 纠 结 于 每 行 代码 的 工作 原理 ， 却 要 大 体 明 白 每 
行 代码 实现 的 配置 任务 。 



































public class ExampleDriver 


{ 


public static void main(String[] args) throws Exception 
{ 
// 创建 Configuration 对 象 ， 用 于 设置 其 他 选项 
Configuration conf = new Configuration() ; 
// 创建 作业 对 象 
Job job = new Job(conf, "ExampleJob") ; 
// 设置 作业 jarfile 中 主 类 的 名 字 


job.setJarByClass(ExampleDriver.class) ; 
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/ 


mS 


设置 mapper 类 
job.setMapperClass(ExampleMapper.class) ; 
// ik Éreducer X 
job.setReducerClass(ExampleReducer.class) ; 
设置 最 终 输出 的 键 和 值 的 类 型 
job.setOutputKeyClass(Text.class) ; 
job.setOutputValueClass(IntWritable.class) ; 
// 设置 输入 和 输出 文件 路 径 
FileInputFormat.addInputPath(job, new Path(args[0])) ; 
FileOutputFormat.setOutputPath(job, new Path(args[11)) 
// 执行 并 等 待 作业 完成 
System.exit(job.waitForCompletion(true) ? 0 : 1); 
} 
}} 


鉴于 之 前 对 作业 的 讨论 ，Driver 类 实现 的 大 部 分 设置 与 Job 对 象 的 操作 相关 ， 这 不 足 为 奇 。 
这 些 设置 包括 设置 作业 的 名 称 ， 指 定 用 作 mapper 和 reducer 的 类 。 


Driver 类 还 对 某 些 输入 /输出 配置 进行 了 设置 , 最终 传递 给 main 方 法 的 参数 被 用 于 指定 作业 
的 输入 和 输出 位 置 。 这 是 读者 会 经 常 看 到 的 一 个 很 普遍 的 模式 。 


对 于 配置 选项 ， 有 很 多 的 默认 值 。 在 前 面 的 类 中 , 我 们 隐 式 地 使 用 其 中 的 一 些 默 认 设置 。 最 
值得 注意 的 是 ， 我 们 没有 提 输 入 文件 的 格式 及 输出 文件 的 写 入 方式 。 这 些 内 容 在 前 面 提 到 的 
InputFormat 和 OutputFormat 类 中 进行 了 定义 ， 我 们 稍 后 将 对 其 进行 详细 探讨 。 默认 的 输入 和 
偷 出 格式 是 文本 文件 ， 这 些 文本 文件 适用 于 WordCount 示 例 程序 。 除 特别 优化 的 二 进 制 格 式 外 ， 
有 多 种 表示 文本 文件 内 部 格式 的 方法 。 


对 于 不 太 复 杂 的 MapReduce 作 业 ， 一 种 常见 的 模型 是 将 Mapper 和 Reducer 类 作为 驱动 程序 
的 内 置 类 。 这 种 模型 将 所 有 内 容 都 保存 在 一 个 文件 中 ， 简 化 了 代码 部 署 。 


/ 


- 
































3.3 编写 MapReduce 程序 


在 相当 长 的 一 段 时 间 内 ， 我 们 一 直 在 使 用 和 谈论 WordCount 程 序 。 现 在 ， 让 我 们 实际 编写 该 
程序 ， 编 译 并 运行 它 ， 然 后 尝试 进行 一 些 修改 。 





3.4 ”实践 环节 : 设置 classpath 
为 了 编译 任意 Hadoop 相 关 的 代码 ， 我 们 需要 参考 标准 的 Hadoop 捆 绑 类 。 
从 软件 分 发 包 中 添加 Hadoop-1.0.4.core.jar 至 Java classpath， 如 下 所 示 : 


$ export CLASSPATH-.:$(HADOOP HOME)/Hadoop-1.0.4.core.jar:$ (CLASSPATH) 
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原理 分 析 


上 述 命令 显 式 地 将 Hadoop-1.0.4.core.jaz 文 件 与 当前 路 径 、 原 本 CLASSPATH 环 境 变 量 
的 内 容 添加 到 classpath。 


再 次 重申 ， 把 这 个 命令 放 到 shell 启 动 文件 或 一 个 独立 的 引用 文件 将 是 很 好 的 选择 。 





稍 后 ， 我 们 还 需要 将 许多 用 于 Hadoop 的 第 三 方 代码 库 添 加 到 我 们 的 
classpath, 而 且 有 一 个 快捷 方式 来 完成 这 个 工作 。 就 目前 而 言 , 明确 的 将 核心 JAR 





文件 添加 到 classpath 就 足够 了 。 


3.5 ”实践 环节 M WordCount 


在 第 2 章 中 ， 我 们 已 经 看 到 了 WordCount 示 例 程 序 的 应 用 。 现 在 ， 我 们 将 通过 执行 以 下 步骤 ， 
探索 使 用 Java 语 言 实现 这 一 程序 。 


(1) 在 wordcount1.java 文 件 中 输入 以 下 代码 : 


import java.io.* ; 

import org.apache.hadoop.conf.Configuration ; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class WordCounti 
t 


public static class WordCountMapper 
extends Mapper«Object, Text, Text, IntWritable» 


private final static IntWritable one - new IntWritable(1); 
private Text word - new Text(); 


public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException ( 
String[] words = value.toString().split(" ") ; 





for (String str: words) 


{ 
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word.set(str); 
context.write(word, one); 


) 


public static class WordCountReducer 
extends Reducer«Text,IntWritable,Text,IntWritable» { 
public void reduce(Text key, Iterable«IntWritable» values, 


Context context 


) throws IOException, InterruptedException { 


int total = 0; 


for (IntWritable val : values) ( 


total++ ; 


} 


context .write (key, 


) 


new IntWritable(total)); 


public static void main(String[] args) throws Exception { 
Configuration conf - new Configuration(); 
Job job = new Job(conf, "word count"); 
job.setJarByClass (WordCountl.class); 
job.setMapperClass (WordCountMapper.class); 
job.setReducerClass (WordCountReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass(IntWritable.class); 


FileInputFormat.addInputPath(job, new Path(args[01)); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


) 


System.exit(job.waitForCompletion(true) ? 0 : 1); 


} 


(2) 现在 通过 执行 下 列 命令 编译 WordCount1 .java: 


$ javac WordCount1.java 


原理 分 析 


这 是 我 们 实现 的 第 一 个 完整 MapReduce 作 业 。 纵 观 该 作业 的 结构 ， 你 应 该 认 出 我 们 先前 已 





经 讨论 过 的 要 素 : 在 其 主 方法 中 通 


Mapper 和 Reducer。 


过 驱动 程序 设置 的 完整 Job 类 ， 以 内 置 类 的 形式 定义 的 
































下 一 节 , 我 们 将 更 详细 地 探讨 MapReduce 的 机 制 , 但 现在 通过 阅读 前 述 代码 思考 它 是 如 何 实 





现 之 前 谈 到 的 键 / 值 转换 的 。 


Mapper 类 的 输入 可 以 说 是 最 难 理解 的 ， 因 为 键 并 没有 得 到 实际 使 用 。 该 作业 指定 TextImput- 
Format 作 为 输入 数据 的 格式 。 默 认 情况 下 ， 这 种 格式 提供 给 mapper 的 数据 中 ,， 键 指 的 是 文件 中 的 
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行 号 ， 值 指 的 是 该 行内 容 。 实 际 上 ， 读 者 可 能 从 来 没有 遇 到 过 使 用 行 号 作为 键 的 mapper， 但 
TextInputFormat 提 供 了 这 样 的 映射 。 


对 于 输入 源 中 的 每 行文 本 , mapper 都 会 执行 一 次 , 每 次 运行 都 会 获取 该 行内 容 并 把 它 切 分 成 
词语 。 之 后 ， 它 会 使 用 context 对 象 以 <word,1> 的 格式 输出 每 个 新 的 键 / 值 (俗称 发 射 )。 这 些 
输出 就 是 我 们 所 说 的 Kk2/V2 值 。 


之 前 ， 我 们 讲 到 reducer 的 输入 是 一 个 键 和 一 组 与 该 键 对 应 的 值 。 在 map 和 reduce 方 法 之 间 
发 生 了 一 些 不 可 思议 的 事 , 将 每 个 键 对 应 的 值 收集 起 来 , 现在 我 们 不 描述 该 过 程 。Hadoop 对 每 个 
键 执行 一 次 reducer ， 前 面 例子 中 的 reducer 简 单 地 统计 Iterable 对 象 中 的 数字 ， 并 以 <worda， 
count> 的 形式 给 出 每 个 词 的 输出 。 这 些 输出 就 是 我 们 所 说 的 Kk3/V3 的 值 。 






































总 结 一 下 mapper 和 reducer 类 的 特点 : WordCountMapper 类 以 Intwritapble 和 Text 作 为 
输入 ,然后 以 Text 和 Intwritable 作 为 输出 。WordcountReducer 类 的 输入 和 输出 都 是 Text 和 
Intwritable 类 型 。 这 又 是 一 个 相当 普遍 的 模式 , 在 该 模式 中 map 方 法 对 键 和 值 进行 了 反 转 并 输 
出 一 系列 数据 对 ， 而 reducer 对 这 些 数 据 对 进行 了 整合 。 


因为 有 真正 的 参数 值 ， 驱 动 在 这 里 更 有 意义 。 我 们 使 用 传 给 类 的 参数 指定 输入 和 输出 位 置 。 


























3.6 ”实践 环节 : 构建 JAR 文件 


在 Hadoop 集 群 中 运行 作业 之 前 , 我 们 必须 将 所 需 的 类 文件 打包 到 一 个 JAR 文 件 , 该 文件 将 被 
提交 给 系统 。 
用 已 生成 的 类 文件 创建 JAR 文 件 的 命令 如 下 所 示 。 


$ jar cvf wcl.jar WordCounti*class 


原理 分 析 


在 提交 给 Hadoop 之 前 ， 我 们 必须 将 类 文件 打包 成 JAR 文 件 ， 无 论 Hadoop 部 署 在 本 地 还 是 
Elastic MapReduce。 


要 小 心 处 理 JAR 命 令 和 文件 路 径 。 假 如 读者 在 JAR 文 件 中 包含 了 子 目 录 下 的 

M 文件 ， 该 类 的 存储 路 径 可 能 与 预期 不 一 致 。 尤 其 是 当 所 有 源 数据 都 在 该 目录 进 

Q 行 编译 的 时 候 ， 这 种 现象 更 为 普遍 。 这 种 情况 下 ， 可 能 需要 编写 一 个 脚本 来 改 
变 路 径 ， 将 所 需 文件 转换 为 JAR 文 件 ， 并 将 JAR 文 件 转移 到 所 需 位 置 。 





54 第 3 章 理解 MapReduce 





3.7 ”实践 环节 : 在 本 地 Hadoop 集群 运行 WordCount 


现在 ， 我 们 已 经 生成 了 类 文件 并 将 其 打包 进 了 JAR 文 件 ， 可 以 通过 执行 下 列 步骤 运行 
WordCount。 
(1) 提交 新 JAR 文 件 到 Hadoop 执 行 。 
$ hadoop jar wcl.jar WordCounti1 test.txt output 
(2) 如 果 执 行 成 功 的 话 ， 你 会 看 到 与 前 一 章 我 们 运行 Hadoop 提 供 的 示例 WordCount 相 似 的 输 
出 。 检 查 输 出 文件 ， 它 应 当 如 下 所 示 : 


$ Hadoop fs -cat output/part-r-00000 
This 1 

yes 1 

a1 

is 2 

test 1 

this 1 


原理 分 析 
这 是 我 们 首次 对 自己 的 代码 使 用 Hadoop JAR 命 令 。 它 有 4 个 参数 : 
(1) JAR 文 件 名 ; 
(2) JAR 文 件 中 的 驱动 类 名 ; 
(3) 输入 文件 在 HDFS 的 位 置 ( 本 例 中 ， 是 对 /user/Hadoop home 文 件 夹 的 相对 引用 ); 
(4) 输出 文件 夹 的 目标 位 置 (同样 也 是 一 个 相对 路 径 )。 

















| à 只 有 在 JAR 文 件 清单 中 没有 指定 主 类 的 情况 下 ， 才 需要 驱动 类 名 ( 如 本 例 
中 ) 


3.8 ”实践 环节 : Æ EMR 上 运行 WordCount 


现在 ， 我 们 将 展示 如 何在 EMR 上 运行 同样 的 JAR 文 件 。 时 刻 要 牢记 ， 这 是 需要 付费 的 ! 
(1) 访问 AWS 控 制 人 台 http://aws.amazon.com/console， 登 录 并 选择 S3。 


D 你 将 需要 两 个 桶 : 一 个 存储 JAR 文 件 ， 另 一 个 存储 作业 的 输出 。 你 既 可 以 使 用 现 有 的 桶 
也 可 以 新 建 两 个 桶 。 


3.8 ”实践 环节 : Æ EMR 上 运行 WordCount 


55 





(3) 打开 将 用 于 存储 作业 文件 的 桶 ， 选 择 上 传 ， 并 添加 之 前 创建 的 wcl.jar 文 件 。 
(4) 返回 控制 台 主 页 面 ， 之 后 通过 选择 Elastic MapReduce 进 入 控制 台 的 EMR 部 分 


(5) 点 击 Create a New Job Flow 按钮 ， 你 会 看 到 一 个 如 下 所 示 的 熟悉 界面 。 








Creating 3 job flow to process your data using Amazon Elartx MapReduce is timole and quck. Let's begin by ving rour ES 
MapRedue, sampl 


name and selacong Rs typa. É you dent already have an applicabon you'd lice to run on Amazon Flacbr 
available to help you get starte, 


Job Flow Namu*: Mui —— 


Croate a Joh Flow*: K AEREE jes a a pé foe nans a Java 
UN The pied ud 
C pun a sempe eppicaticn xd 





(6) 第 2 章 中 ， 我 们 使 用 的 是 Hadoop 自 带 示例 程序 ， 因 此 选择 的 是 Run a sample application, 
本 例 中 ,为 了 运行 自己 的 代码 ， 我 们 需要 执行 不 同 的 步骤 。 首 先 ， 选 择 Run your own 


application 单 选 按钮 。 
(7) 在 Select a Job Type 下 拉 框 中 ， 选 择 Custom JAR, 


(8) 点 击 Continue 按 钮 ， 你 将 看 对 一 个 新 表格 ， 如 下 图 所 示 。 








Specify the location in amazon $3 of your JAR Hadoop exerutes the JAR. You cari pecfy its main class in its manifest. If you dorit 
you most specify a dass name a5 the first argument of tho MAR. 


JAR Location": OO el jar 


Back 


[emm di 
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现在 指定 该 作业 的 参数 。 在 我 们 已 上 传 的 JAR 文 件 中 ,代码 ( 尤其 是 驱动 类 ) 指定 了 一 些 参 
数 ， 例 如 Mapper 和 Reducer 类 。 


我 们 需要 提供 的 是 JAR 文 件 的 路 径 及 作业 的 输入 和 输出 路 径 。 在 JAR Location 区 域 , 输入 已 
上 传 的 JAR 文 件 的 位 置 。 假如 JAR 文 件 命 名 为 wcl.jar,， 并 且 上 传 到 了 名 为 mybucket 的 桶 中 ， 那 
么 路 径 应 为 mybucket/wc1 .jar. 


在 JAR Arguments 区 域 ， 需 要 键入 主 类 的 名 称 及 作业 的 输入 和 输出 位 置 。 对 于 S3 上 的 文件 ， 


我 们 可 以 使 用 形 如 s3://bucketname/objectname 的 URL。 点 击 Continue 按 钮 ， 为 作业 流 选用 
虚拟 机 的 熟悉 界面 出 现 了 ， 如 下 图 所 示 。 











Create a New Job Flow 


li 
-rm DC) mitas 


Specfy the Master, Core ard Task oes to run yout job flow. For more than 20 instances, comolete the «nit request form 


Master Inctance Group: Thi EC? mirante ns man Hasann rari rp Core and T» 
mnstonce Typo: [SUCHT NNI senem 

Cure Instance Group: Tie EC? etitanors run Hadoco taska and store data rng the Hadono Destrbuted Fae ^ ystar 
ed fcc cápecity needed for the | 
Instance Count: — — 
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现在 ， 继 续 完成 作业 的 安装 和 执行 ， 就 如 我 们 在 第 2 章 所 做 的 那样 。 


[EIL 








原理 分 析 


在 EMR 上 ， 我 们 可 以 重用 为 本 地 Hadoop 集 群 所 写 的 代码 ， 这 点 值得 特别 注意 。 此 外 ， 除 了 
前 面 这 几 个 步骤 ,不 管 要 执行 的 作业 代码 的 源 文件 是 什么 ,EMR 控 制 台 的 大 部 分 设置 都 是 一 样 的 。 


在 本 章 剩余 部 分 我们 不 会 明确 展示 正在 EMR 上 执行 的 代码 ， 而 是 将 更 多 地 关注 本 地 集群 ， 
因为 在 EMR 上 运行 JAR 文 件 是 很 容易 的 。 





3.8.1 0.20 之 前 版 本 的 Java MapReduce API 
本 书 优先 使 用 0.20 及 以 上 版 本 的 MapReduce Java API, 但 是 基于 下 面 两 个 原因 ， 我 们 需要 快 
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速 浏览 一 下 旧 APTI。 


(1) 许多 在 线 示例 和 其 他 参考 材料 是 用 旧 API 编 写 的 。 
(2) MapReduce 框 架 的 若干 内 容 还 没有 移植 到 新 API, 我 们 不 得 不 使 用 | 旧 API 来 研究 这 些 内 容 。 





旧版 API 类 主要 在 org .apache .hadoop .mapred 包 中 。 





新 版 API 类 使 用 具体 的 Mapper 和 Reducer 类 ， 而 旧版 API 倾 向 于 使 用 抽象 类 和 接口 。 





Mapper 类 的 实现 继承 了 MapReduceBase 抽 和 象 类 并 实现 了 Mapper 接 口 ， 而 一 个 自 定义 的 
Reducer 类 将 继承 相同 的 MapReduceBase 抽 象 类 但 实现 了 Reqducer 接 Ha 




















由 于 MapReduc eBase 的 功能 是 人 处理 作业 设置 与 配置 ， 它 不 是 理解 MapReduc e 模 型 的 核心 内 
容 , 所 以 我 们 不 会 讨论 其 太 多 的 细节 。 但 0.20 之 前 版 本 的 Mapper 和 Reducez 的 接口 是 值得 一 看 的 。 





public interface Mapper«K1, V1, K2, V2» 

{ 

void map( K1 key, V1 value, OutputCollector< K2, V2> output, Reporter reporter) throws 
IOException ; 


) 





public interface Reducer«K2, V2, K3, V3» 

{ 

void reduce( K2 key, Iterator<V2> values, 
OutputCollector<K3, V3> output, Reporter reporter) 
throws IOException ; 


) 
这 里 需要 理解 下 列 几 点 内 容 。 


口 0utputCollector 类 的 泛 型 参数 更 明确 地 展示 了 上 述 方法 的 结果 是 如 何 输 出 的 。 

口 旧版 API 为 此 使 用 outputcollector 类 ， 并 日 使 用 Reporter 类 将 状态 和 指标 信息 写 入 
Hadoop 框 架 。0.20 版 的 API 将 这 些 功能 整合 到 了 context 类 。 

口 Reducer 接 口 使 用 Iterator 对 象 代替 Iterapble 对 象 。 这 个 变化 产生 的 原因 是 后 者 更 符 
合 Java 语 法 而 且 使 得 代码 更 简洁 。 

OQ 在 旧版 API 中 , 无 论 是 map 方 法 还 是 reduce 方 法 都 能 抛 出 InterruptedException 异 常 。 












































如 你 所 见 ,不 同 版 本 的 API 发 生 的 变化 改变 了 MapReduce 程 序 的 编写 方式 ,但 不 会 改变 mapper 
或 reducer 的 用 途 或 功能 。 除 非 需 要 ， 不 要 觉得 你 必须 成 为 这 两 套 API 的 专家 。 熟 悉 任 意 一 套 API 
都 能 跟 上 本 书 剩 余部 分 的 内 容 。 





3.8.2 ”Hadoop 提 供 的 mapper 和 reducer 实 现 


我 们 并 非 总 是 必须 从 头 开 始 编写 自己 的 Mapper 和 Reducer 类 。Hadoop 提 供 了 几 种 常见 的 
Mapper 和 Reducer 的 实现 ， 它 们 可 以 用 于 我 们 的 作业 当中 。 如 果 我 们 不 重 写 新 版 API 的 Mapper 
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和 Reducer 类 的 任何 方法 ， 默 认 的 实现 是 恒 等 的 Mapper 和 Reducer 类 ， 即 仅仅 将 输入 原封 不 动 


地 输 出 o 


需要 注意 的 是 ， 随 着 时 间 的 推移 ， 可 能 会 有 更 多 的 预先 写 好 的 Mapper 和 Reducer 类 加 入 到 
Hadoop API 中 。 目 前 ， 新 版 API 中 预先 写 好 的 Mapper 和 Reducer 类 的 数量 不 如 旧版 API 多 。 


mapper 可 以 在 org .apache.hadoop.mapreduce.1ib.mapper 找 到 ， 并 包含 以 下 内 容 。 








口 InverseMapper: 该 类 输出 (value，key )。 
口 TokenCounterMapper: 它 对 输入 的 每 行文 本 的 离散 令 牌 进行 计数 。 


reducer 可 以 在 org .apache.hadoop.mapreduce.lib. reduce 找 到 , 日 前 包含 以 下 内 容 。 








口 mtSumReducer: 它 输出 每 个 键 对 应 的 整数 值 列表 的 总 和 。 
口 LongSumReducer: 它 输出 每 个 键 对 应 的 长 整 型 值 列表 的 总 和 。 





3.9 ”实践 环节 : WordCount 的 简易 方法 


让 我 们 重 温 WordCount， 但 这 次 使 用 一 些 预 定义 的 map 和 reduce 类 : 


(1) 新 建 一 个 


import org. 
import org. 
import org. 
import org. 


import org 


import org. 
import org. 
import org. 
import org. 


public cl 
{ 
publi 
{ 
C 
J 
J 
j 
j 
j 
j 
F 
F 
S 


包含 下 列 代 码 的 WordCcountPredefined.java 文 件 : 


apache.hadoop.conf.Configuration ; 
apache.hadoop.fs.Path; 

apache.hadoop.io.IntWritable; 

apache.hadoop.io.Text; 

.apache.hadoop.mapreduce.Job; 
apache.hadoop.mapreduce.lib.input.FileInputFormat; 
apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
apache.hadoop.mapreduce.lib.map.TokenCounterMapper; 
apache.hadoop.mapreduce.lib.reduce.IntSumReducer; 


ass WordCountPredefined 
c static void main(String[] args) throws Exception 


onfiguration conf - new Configuration(); 

ob job = new Job(conf, "word counti"); 
ob.setJarByClass (WordCountPredefined.class); 
ob.setMapperClass (TokenCounterMapper.class); 
ob.setReducerClass (IntSumReducer.class); 
ob.setOutputKeyClass(Text.class); 
ob.setOutputValueClass (IntWritable.class); 
ileInputFormat.addInputPath(job, new Path(args[01)); 
ileOutputFormat.setOutputPath(job, new Path(args[1])); 
ystem.exit(job.waitForCompletion(true) ? 0 : 1); 
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(2) 现在 ， 编 译 上 述 文 件 ， 创 建 JAR 文 件 ， 并 和 之 前 一 样 运行 它 。 


(3) 如 果 想 要 使 用 相同 的 输出 位 置 ， 别 忘 了 要 在 运行 作业 之 前 删除 输出 目录 。 例 如 ， 使 用 


hadoop fs -rmr output, 


原理 分 析 


由 于 MapReduce 普 遍 使 用 WordCount 作 为 人 门 示 例 ， 即 便 使 用 预定 义 的 Mapper 和 Reducer 
实现 整个 WordCount 方 案 , 可 能 也 不 会 今 人 惊讶 。TokencounterMappezr 类 仅仅 将 每 行 输入 切 
分 为 一 系列 的 (token,1) 对 ，IntsumReducer 类 通过 累加 每 个 键 对 应 值 的 数量 提供 一 个 最 终 
计数 。 


OQ 虽然 对 预定 义 的 Mapper 和 Reducer 来 讲 ， 使 用 它们 实现 WordCount 无 疑 是 敦 舞 人 心 的 , 但 
它们 并 非 专用 于 WordCount 程 序 ， 而 是 可 以 被 广泛 使 用 的 。 

OQ 复 用 现 有 的 mapper 和 reducer 是 需要 牢记 的 经 验 。 尤其 是 , 通常 实现 一 个 新 MapReduce 作 业 
的 最 好 起 点 ， 往 往 是 改动 现 有 的 作业 。 
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为 了 更 详细 地 探讨 mapper 和 reducer 之 间 的 关系 ， 并 揭示 Hadoop 的 一 些 内 部 工作 机 理 ， 现 在 
我 们 将 全 景 呈 现 WordCount ( 或 任意 MapReduce 作 业 ) 是 如 何 执行 的 。 




















3.10.1 启动 


调用 驱动 中 的 gob .waitForCcompletion() 是 所 有 行动 的 开始 。 该 驱动 程序 是 唯一 一 段 运 
行 在 本 地 机 器 上 的 代码 ， 上 述 调用 开启 了 本 地 主机 与 JobTracker 的 通信 。 请 记 住 ，JobTracker 负 责 
作业 调度 和 执行 的 各 个 方面 , 所 以 当 执行 任何 与 作业 管理 相关 的 任务 时 , 它 成 为 了 我 们 的 主要 接 
口 。JobTracker 代 表 我 们 与 NameNode 通 信 , 并 对 储存 在 HDFS 上 的 数据 相关 的 所 有 交互 进行 管理 。 


























3.10.2 ”将 输入 分 块 


这 些 交 互 首先 发 生 在 JobTracker 接 受 输入 数据 ， 并 确定 如 何 将 其 分 配给 map 任 务 的 时 候 。 回 
想 一 下 ，HDFS 文 件 通常 被 分 成 至 少 64 MB 的 数据 块 ，JobTracker 会 将 每 个 数据 块 分 配给 一 个 map 
任务 。 
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当然 ，WordCount 示 例 涉及 的 数据 量 是 微不足道 的 ， 它 刚好 适合 放 在 一 个 数据 块 中 。 设 想 一 
个 更 大 的 以 TB 为 单位 的 输入 文件 , 切 分 模型 变 得 更 有 意义 。 每 段 文件 (或 用 MapReduce 术 语 来 讲 ， 
每 个 split ) 由 一 个 map 作 业 处 理 。 


一 旦 对 各 分 块 完成 了 运算 ，JobTracker 就 会 将 它们 和 包含 Mapper 与 Reducer 类 的 JAR 文 件 放 
置 在 HDFS 上 作业 专用 的 目录 ， 而 该 路 径 在 任务 开始 时 将 被 传递 给 每 个 任务 。 





3.10.3 ”任务 分 配 


一 旦 JobTracker 确 定 了 所 需 的 map 任 务 数 , 它 就 会 检查 集群 中 的 主机 数 , 正在 运行 的 TaskTracker 
数 以 及 可 并 发 执行 的 map 任 务 数 ( 用 户 自 定义 的 配置 变量 )。JobTracker 也 会 查看 各 个 输入 数据 块 在 
集群 中 的 分 布 位 置 , 并 尝试 定义 一 个 执行 计划 , 使 TaskTracker 尽 可 能 处 理 位 于 相同 物理 主机 上 的 数 
据 块 。 或 者 即使 做 不 到 这 一 点 ，TaskTracker 至 少 处 理 一 个 位 于 相同 硬件 机 架 中 的 数据 块 。 

数据 局 部 性 优化 是 Hadoop 能 高 效 处 理 巨 大 数据 集 的 一 个 关键 原因 。 还 记得 ， 默 认 情 况 下 ， 


每 个 数据 块 会 被 复制 到 三 台 不 同 的 主机 。 所 以 ， 在 本 地 处 理 大 部 分 数据 块 的 任务 /主机 计划 比 起 
初 预想 的 可 能 性 更 高 。 



































3.104 任务 启动 


然后 , 每 个 TaskTracker 开 启 一 个 独立 的 Java 虚 拟 机 来 执行 任务 。 这 确实 增加 了 启动 时 间 损 失 , 
但 它 将 因 错 误 运 行 map 或 reduce 任 务 所 引发 的 问题 与 TaskTracker 隔 离开 来 ， 而 且 可 以 将 它 配 置 成 
在 随后 执行 的 任务 之 间 共 享 。 


如 果 集 群 有 足够 的 能 力 一 次 性 执行 所 有 的 map 任 务 ， 它们 将 会 被 全 部 启动 ， 并 获得 它们 将 要 
处 理 的 分 块 数据 和 作业 JAR 文 件 。 每 个 TaskTracker 随 后 将 分 块 复制 到 本 地 文件 系统 。 


如 果 任 务 数 超过 了 集群 能 力 ，JobTracker 将 维护 一 个 挂 起 任务 队列 ， 并 在 节点 完成 最 初 分 配 
的 map 任 务 后 ， 将 挂 起 任务 分 配给 节点 。 


现在 ,我们 准备 查看 map 任 务 执 行 完 毕 的 数据 。 听 起 来 工作 量 似乎 很 大 ， 事 实 确实 如 此 。 这 
也 解释 了 在 运行 任意 MapReduce 作 业 时 ， 为 什么 系统 启动 及 执行 上 述 步 又 会 花费 大 量 时 间 。 











3.10.5 不 断 监视 JobTracker 


现在 ，JobTracker 等 待 TaskTracker 执 行 所 有 的 mapper 和 reducer。 它 不 断 地 与 TaskTracker 交 换 
心跳 和 状态 消息 ,查找 进度 或 问题 的 证 据 。 它 还 从 整个 作业 执行 过 程 的 所 有 任务 中 收集 指标 , 其 
中 一 些 指标 是 Hadoop 提 供 的 ， 还 有 一 些 是 map 和 reduce 任 务 的 开发 人 员 指 定 的 ， 不 过 本 例 中 我 们 
没有 使 用 任何 指标 。 
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3.10.6 ” mapper 的 输入 


在 第 2 章 中 ，WordCount 的 输入 是 一 个 仅 有 一 行内 容 的 文本 文件 。 在 本 节 剩 余部 分 ， 假 设 输 
入 文件 是 一 个 极为 普通 的 两 行文 本 文件 。 




















This is a test 
Yes this is 


驱动 类 使 用 TextInputFormat 指 定 了 输入 文件 的 格式 和 结构 ,因此 ,Hadoop 会 把 输入 文件 看 做 
以 行 号 为 键 并 以 该 行内 容 为 值 的 文本 。 因 此 mapper 的 两 次 调用 将 被 赋予 以 下 输入 。 


1 This is a test 
2 Yes it is. 








3.10.7 mapper 的 执行 


根据 作业 配置 的 方式 ，mapper 接 收 到 的 键 / 值 对 分 别 是 相应 行 在 文件 中 的 偏 移 量 以 及 该 行内 
容 。 因 为 我 们 不 关心 每 行文 本 在 文件 中 的 位 置 ， 所 以 wordcountMapper 类 的 map 方 法 舍弃 了 键 ， 
并 使 用 标准 的 Java String 类 的 split 方 法 将 每 行文 本 内 容 拆 分 成 词 。 需 要 注意 的 是 ， 使 用 正则 表 
达 式 或 stringTokenizezr 类 可 以 更 好 地 断 词 ， 但 对 于 我 们 的 需求 ， 这 种 简单 的 方法 就 足够 了 。 


然后 ， 针 对 每 个 单独 的 词 ，mapper 输 出 由 单词 本 身 组 成 的 键 和 值 1。 




















我 们 加 入 了 一 些 优 化 措施 ， 但 现在 不 必 对 其 考虑 太 多 。 读 者 会 看 到 ， 我 们 
并 不 是 每 次 创建 包含 值 1 的 IntWritable 对 象 ， 而 是 以 静态 变量 的 形式 创建 
IntWritable 对 象 ， 并 在 每 次 调用 时 复 用 该 对 象 。 类 似 地 ， 我 们 使 用 一 个 Text 
> 对 象 并 在 每 次 执行 函数 时 重 置 其 内 容 。 这 样 做 的 原因 是 ， 尽 管 它 对 我 们 小 型 的 
Q 输入 文件 帮助 不 大 ,但 处 理 巨 大 数据 集 时 ， 可 能 会 对 mapper 进 行 成 千 上 万 次 调 

用 。 如 果 每 次 调用 都 为 输出 的 键 和 值 创 建 一 个 新 对 象 ， 这 将 消耗 大 量 的 资源 ， 
同时 垃圾 回收 会 引发 更 频繁 的 停滞 。 我们 使 用 这 个 值 ， 知 道 Context .write 方 

法 不 会 对 其 进行 改动 。 


3.10.8 | mapper 的 输出 和 reducer 的 输入 
mapper 的 输出 是 一 系列 形式 为 (worg, 1) 的 键 值 对 。 本 例 中 ，mapper 的 输出 为 : 


(This,1), (is, 1), (a, 1), (test., 1), (Yes, 1), (it, 1), (is, 1) 


这 些 从 mapper 输 出 的 键 值 对 并 不 会 直接 传 给 reducer。 在 map 和 reduce 之 间 ， 还 有 一 个 shuffle 
阶段 ， 这 也 是 许多 MapReduce 奇 迹 发 生 的 地 方 。 
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3.10.9 分 块 


Reduce 接 口 的 隐 性 保证 之 一 是 ， 与 给 定 键 相关 的 所 有 值 都 会 被 提交 到 同一 个 reducer。 由 于 
一 个 集群 中 运行 着 多 个 reduce 任 务 ， 因 此 ， 每 个 mapper 的 输出 必须 被 分 块 ， 使 其 分 别传 人 相应 的 
各 个 reducer。 这 些 分 块 文件 保存 在 本 地 节点 的 文件 系统 。 


集群 中 的 Reduce 任 务 数 并 不 像 mapper 数 量 一 样 是 动态 的 , 事实 上 , 我 们 可 以 在 作业 提交 阶段 
此 定 reduce 任 务 数 。 因 此 ， 每 个 TaskTracker 就 知道 集群 中 有 和 多少 个 reducer， 并 据 此 得 知 mapper 输 
出 应 切 分 为 多 少 块 。 

















在 后 续 章 节 中 ,我们 会 介绍 故障 容忍 ， 但 现在 明显 的 问题 是 ， 假 如 reducer 
， 失败 了 ， 会 给 本 次 计算 带 来 什么 影响 呢 ? 答案 是 ，JobTracker 会 保证 重新 执行 发 
生 故 障 的 reduce 任 务 ， 可 能 是 在 不 同 的 节点 重新 执行 ， 因 此 临时 故障 不 是 问题 。 
更 为 严重 的 问题 是 ,数据 块 中 的 数据 敏感 性 缺陷 或 错误 数据 可 能 导致 整个 作业 失 
败 ， 除 非 采取 一 些 手段 。 


3.10.10 ”可 选 分 块 函数 
Partitioner 类 在 org .apache.hadoop .mapreduce 包 中 ; 该 抽象 类 具有 如 下 寺 征 : 


public abstract class Partitioner«Key, Value» 

{ 

public abstract int getPartition( Key key, Value value, 
int numPartitions) ; 


} 
默认 情况 下 ，Hadoop 将 对 输出 的 键 进行 哈 希 运算 ， 从 而 实现 分 块 。 此 功能 由 org. apache. 
hadoop.mapreduce.1ib.partition 包 里 的 HashPartitioner 类 实现 , 但 某 些 情况 下 ， 
用 户 有 必要 提供 一 个 自 定 义 的 Partitioner 子 类 ， 在 该 子 类 中 实现 针对 具体 应 用 的 分 块 逻 
辑 。 特 别 是 当 应 用 标准 哈 希 函数 导致 数据 分 布 极 不 均匀 时 ， 自 定义 Partitioner 子 类 尤为 
必要 。 














3.10.11 reducer 类 的 输入 


reducer 的 TaskTracker 从 JobTracker 接 收 更 新 ， 这 些 更 新 指明 了 集群 中 哪些 节点 承载 着 map 
的 输出 分 块 ， 这 些 分 块 将 由 本 地 reduce 任 务 处 理 。 之 后 ，TaskTracker 从 各 个 节点 获取 分 块 ， 并 将 
它们 合并 为 一 个 文件 反馈 给 reduce 任 务 。 
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3.10.12 reducezr 类 的 执行 


我 们 实现 的 wordcountReducet 类 很 简单 。 针 对 每 个 词 ， 该 类 仅 对 数组 中 的 元 素数 目 进行 
统计 并 为 每 个 词 输出 最 终 的 (Word，count) 键 值 对 。 











不 必 为 避免 创建 多 余 对 象 而 过 多 地 考虑 采取 一 些 优化 措施 。reducer 的 调用 

y% 次 数 通 常 小 于 mapper 的 调用 次 数 ， 因 此 调用 reducer 带 来 的 开销 无 需 特别 在 意 。 

Q 然而 ， 假 如 读者 有 着 非常 严格 的 性 能 要 求 ， 那 么 您 可 以 采取 任何 有 利于 提高 性 
能 的 措施 。 





我 们 调用 WordCount 处 理 示 例 输 入 ， 除 is 出 现 两 次 外 ， 其 余 所 有 词 仅 出 现 一 次 。 


请 注意 ,this 和 This 分 别 进行 了 计数 ， 这 是 因为 我 们 并 不 打算 忽略 大 小 写 。 
， 类似 地 ， 每 个 句子 以 句号 结尾 ， 这 个 规则 可 能 干扰 is 的 值 ， 因 为 is 与 is. .并 不 
相同 。 在 处 理 文本 数据 时 ， 对 大 写 、 标 点 符号 、 连 字符 、 页 码 及 其 他 方面 都 要 特 
别 小 心 ， 因 为 这 些 东 西 可 以 误导 数据 的 理解 方式 。 在 这 些 情况 下 , 通常 需要 一 个 

先期 的 MapReduce 作 业 对 数据 集 执行 标准 化 或 清理 策略 。 


3.10.13 ”reducer 类 的 输出 
因此 ， 本 例 中 reducer 的 最 终 输 出 集合 为 : 


(This, 1), (is, 2), (a, 1), (test, 1), (Yes, 1), (this, 1) 

这 些 数据 将 被 输出 到 驱动 程序 指定 的 输出 路 径 下 的 分 块 文件 中 ， 并 将 使 用 指定 的 
OutputFormat 对 其 进行 格式 化 。 每 个 reduce 任 务 写 和 一 个 以 part-r-nnnnn 为 文件 名 的 文件 ， 其 
中 nnnnn 从 00000 开 始 并 逐步 递增 。 当 然 ， 这 些 内 容 曾 在 第 2 章 讲 到 ， 和 希望 part 前 绥 现 在 稍微 容 
易 理 解 一 些 。 











3.10.14 关机 


一 旦 成 功 完成 所 有 任务 ，JobTracker 向 客户 端 输出 作业 的 最 终 状态 ,以 及 作业 运行 过 程 中 
一 些 比较 重要 的 计数 器 集合 。 完 整 的 作业 和 任务 历史 记录 存储 在 每 个 节点 的 日 志 路 径 中 ， 通 
过 JobTracker 的 网 络 用 户 接口 更 易于 访问 ， 只 需 将 浏览 句 指 癌 JobTracker 节 点 的 $S0030 端 口 
即 可 。 
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3.10.15 ”这 就 是 MapReduce 的 全 部 


如 你 所 见 ，Hadoop 为 每 个 MapReduce 程 序 提供 了 大 量 机 制 ， 同 时 ，Hadoop 提 供 的 框架 在 许 
多 方面 都 进行 了 简化 。 如 前 所 述 ， 对 于 WordCount 这 样 的 小 程序 来 说 ，MapReduce 的 大 部 分 机 制 
并 没有 多 大 价值 ， 但 是 不 要 忘 了 ， 无 论 在 本 地 Hadoop 或 EMR ， 我 们 可 以 使 用 相同 的 软件 和 
mapperreducer 在 巨大 的 集群 上 对 更 大 的 数据 集 进 行 字 数 统计 。 那 时 ，Hadoop 所 做 的 大 量 工作 使 
用 户 能 够 在 如 此 大 的 数据 集 上 进行 数据 分 析 。 和 否则 , 手工 实现 代码 分 发 、 代 码 同 步 以 及 并 行 运算 
将 付出 超 乎 想象 的 努力 。 























3.10.16 ”也许 缺 了 combiner 


前 面 讲述 了 MapReduce 程 序 运 行 的 各 个 步骤 , 却 漏 掉 了 另外 一 个 可 选 步骤 。 在 reducer 获 取 map 
方法 的 输出 之 前 ，Hadoop 人 允许 使 用 combiner 类 对 map 方 法 的 输出 执行 一 些 前 期 的 排序 操作 。 

为 什么 要 有 combiner 

Hadoop 设 计 的 前 提 是 ,减少 作业 中 成 本 较 高 的 部 分 ， 通常 指 磁盘 和 网 络 输 入 输出 。mapper 
的 输出 往往 是 巨大 的 一 一 它 的 大 小 通常 是 原始 输入 数据 的 许多 倍 。Hadoop 的 一 些 配置 选项 可 以 才 
助 减少 reducer 在 网 络 上 传输 如 此 大 的 数据 量 所 带 来 的 性 能 影响 。combiner 则 采取 了 不 同 的 方法 ， 
它 对 数据 进行 早期 聚合 以 减少 所 需 传输 的 数据 量 。 


combiner 没 有 自己 的 接口 ， 它 必须 具有 与 reducer 相 同 的 特征 ， 因 此 也 要 继承 org .apache . 
hadoop. mapreduce 包 里 的 Reduce 类 。 这 样 做 的 效果 主要 是 ; Emap T A EX R1 T reducer 
的 输出 执行 mini-reduce 操 作 。 


Hadoop 不 保证 combinez 是 否 被 执行 。 有 时 候 ， 它 可 能 根本 不 执行 ， 而 某 些 时 候 ， 它 可 能 被 
执行 一 次 、 两 次 甚至 多 次 ， 这 取决 于 mappez 为 每 个 redqucez 生 成 的 输出 文件 的 大 小 和 数量 。 






























































3.11 实践 环节 : 使 用 combiner 编写 WordCount 


让 我 们 在 第 一 个 WordCount 示 例 程 序 中 加 入 combiner。 事 实 上 ,我 们 可 以 使 用 reducer 作 为 
combiner。 因 为 combiner 必 须 具有 和 reducer 相 同 的 接口 ， 所 以 经 常会 看 到 使 用 reducer 作 为 combiner 的 
情况 ,但 要 注意 ， 和 包含 在 reducer 中 的 处 理 类 型 将 确定 其 是 否 可 用 作 combiner， 稍 后 我 们 将 讨论 这 个 
问题 。 由 于 我 们 试图 统计 单词 出 现 的 次 数 , 可 以 在 map 节 点 进行 部 分 计数 ,并 将 这 些 结果 传 给 reducer。 


(1) 复制 NordCount1.java, 保存 为 WordCount2.java, 并 在 Mapper 和 Reducer 类 定义 之 
间 加 入 下 列 内 容 来 修改 驱动 类 。 


job.setCombinerClass (WordCountReducer.class); 


3.12 ”实践 环节 : 更 正 使 用 combiner 的 WordCount 65 





(2) 修改 类 名 为 WordCount2 并 编译 。 
$ javac WordCount2.java 
(3) 创建 JAR 文 件 。 
$ jar cvf wc2.jar WordCount2*class 
(4) 在 Hadoop 上 运行 作业 。 
$ hadoop jar wc2.jar WordCount2 test.txt output 
(5) 检查 输出 。 


$ hadoop fs -cat output/part-r-00000 


原理 分 析 
本 次 输出 可 能 与 预期 有 所 差别 ， 因 为 is 出 现 了 两 次 ， 其 值 却 被 错误 统计 为 1。 
问题 在 于 combiner 与 reducer 的 交互 方式 。 提 交 给 reducer 的 值 ， 之 前 是 (is，1，1) ， 现 在 却 


是 (is，2)， 这 是 因为 combiner 对 每 个 词 的 出 现 次 数 自 行进 行 合 并 。 然 而 ，reducer 并 没有 看 到 
Iterable 对 象 中 的 真正 值 ， 它 仅 对 combiner 提 交 的 数据 进行 了 统计 。 

使 用 reducer 作 为 combiner 的 条 件 
写 combiner 时 要 特别 留心 。 请 记 住 ，Hadoop 不 保证 combiner 被 应 用 到 map 输 出 的 次 数 ， 可 
能 根本 不 执行 ， 也 可 能 执行 1 次 或 者 多 次 。 因 此 ， 关 键 问题 在 于 ， 由 combiner 执 行 的 操作 是 否 可 
被 如 此 应 用 。 分 布 式 的 操作 ， 如 总 和 、 加 法 或 类 似 操作 通常 是 安全 的 , 但是， 如 前 所 示 ， 务 必 确 
保 reduce 逻 辑 不 包含 可 能 破坏 这 个 特性 的 隐 含 假设 。 
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3.12 ”实践 环节 : 更 正 使 用 combiner 的 WordCount 


让 我 们 对 WordCount 做 一 些 必 要 的 修改 ， 以 正确 使 用 combiner。 


将 WordCount2.java 复 制 为 名 为 NordCount3 .java 的 新 文件 ， 并 将 reduce 方 法 改 为 如 下 


内 容 : 


public void reduce(Text key, Iterable<IntWritable> values, Context context) throws 
IOException, InterruptedException 

{ 

int total = 0 ; 

for (IntWritable val : values)) 


( 
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total+= val.get() ; 
} 
context .write (key, new IntWritable(total)); 


} 
别 忘 了 ,要 将 该 类 名 改 为 Wordcount3 ， 然 后 编译 它 , 创建 JAR 文 件 ， 并 和 以 前 一 样 运行 作业 。 


原理 分 析 


现在 ， 输 出 与 预期 一 致 。map 端 对 combiner 的 调用 全 部 执行 成 功 ， 同 时 ，reducer 生 成 的 输出 
值 全 都 正确 。 


假如 原来 的 reducer 被 用 作 combiner 而 新 的 reducer 被 用 作 reducer，WordCount 
程序 会 工作 正常 吗 ? 答案 是 否定 的 ， 但 是 我 们 的 测试 样 例 无 法 说 明 这 一 点 。 由 
于 combiner 可 能 会 在 map 输 出 数据 上 调用 多 次 ， 如 果 数 据 集 足 够 大 的 话 ， 同 样 的 
> 错误 会 多 次 出 现在 map 输 出 中 ,但 是 由 于 此 处 输入 数据 规模 小 ,错误 没有 显现 出 
来 。 从 根本 上 讲 ， 原 来 的 reducer 是 错误 的 ， 但 其 错误 并 不 明显 ， 要 小 心 此 类 细 
微 的 逻辑 缺陷 。 事 实 上 ， 这 类 问题 难以 调试 ， 因 为 代码 在 开发 机 上 的 数据 集 的 
子 集 工 作 正 常 ， 却 在 更 大 的 业务 集群 上 发 生 故 障 。 要 仔细 推 项 combiner 类 ， 而 不 
能 完全 依赖 于 处 理 小 样本 数据 的 测试 。 


复 用 助 您 一 臂 之 力 

在 前 面 章节 中 ， 我 们 使 用 了 现 有 的 作业 类 文件 并 对 其 进行 了 改动 。 这 是 一 个 非常 常见 的 
Hadoop 开 发 流程 的 小 例子 一 一 使 用 现 有 的 作业 文件 作为 开发 新 作业 的 起 点 。 虽 然 新 作业 的 mapper 
和 reducer 逻 辑 与 现 有 作业 相去 甚 远 , 但 使 用 现 有 作业 通常 能 够 节省 时 间 , 因为 它 能 够 帮 您 记 住 实 
现 mapper、reducer 和 驱动 所 必须 的 元 素 。 








随 堂 测 验 : MapReduce 的 结构 


问题 1 你 必须 为 MapReduce 作 业 指 定 哪些 内 容 ? 
(1) mapper 和 reducer 类 。 
(2) mapper、reducer 和 combiner 类 。 
(3) mapper、reducer、partitioner 和 combiner 类 。 
(4) 什么 都 不 需要 ， 所 有 类 都 有 默认 实现 。 
问题 2 ”Combiner 会 被 执行 多 少 次 ? 


(D 至 少 1 次 。 
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(2) 0 次 或 1 次 。 
(3) 0 次 、1 次 或 多 次 。 
(4) 这 是 可 配置 的 。 
问题 3 有 一 个 mapper 为 每 个 键 生成 一 个 整数 值 ， 下 面 是 reduce 操 作 。 
口 ReducerA: 输出 整数 值 集合 的 总 和 。 
口 Reducer B: 输出 值 集合 中 的 最 大 值 。 
O Reducer C: 输出 值 集合 的 平均 值 。 
口 ReducerD: 输出 集合 中 最 大 值 与 最 小 值 之 差 。 
这 些 reduce 操 作 中 ， 哪 个 可 被 安全 地 用 作 combiner? 
(1) 全 部 。 
(2) A 和 B。 
(3) A、B 和 D。 
(4) C 和 D。 
(5) 都 不 可 以 。 








3.13 Hadoop 专 有 数据 类 型 


截至 目前 ,我们 已 经 草草 了 解 了 用 作 map 和 reduce 类 的 输入 和 输出 的 数据 类 型 。 现 在 ， 让 我 
们 研究 一 下 这 些 数据 类 型 。 








3.13.1 Writable 和 WritableComparable 接 口 


如 果 浏 览 org .apache.hadoop.io 包 的 Hadoop API， 读 者 会 发 现 一 些 熟悉 的 类 带 有 writable 
词 级 ， 这 些 类 包括 Text 、Intwritable 及 其 他 。 

org .apache.hadoop.io 也 包含 了 Writable 接 口 的 定义 ， 其 定义 如 下 : 

import java.io.DataInput ; 


import java.io.DataOutput ; 
import java.io.IOException ; 





public interface Writable 

{ 

void write(DataOutput out) throws IOException ; 
void readFields(DataInput in) throws IOException ; 
} 


Writable 接 口 的 主要 目的 是 ， 当 数据 在 网 络 上 传输 或 从 硬盘 读 写 时 ， 提 供 数据 的 序列 化 和 反 
序列 化 机 制 。 所 有 用 作 mapper 或 reducer 输 入 或 输出 值 的 数据 类 型 (也 就 是 说 ，V1、V2 或 v3 ) 都 
必须 实现 这 个 接口 。 
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用 作 键 的 数据 (Kk1，K2，K3) 有 着 更 为 严格 的 要 求 : 除 Writable 之 外 ， 它 必须 实现 标准 Java 
中 的 comparable 接 口 : 

public interface Comparable 

{ 

public int compareTO( Object obj) ; 

} 

compare 方 法 的 返回 值 为 -1、0 或 者 1， 这 取决 于 被 比较 的 对 象 小 于 、 等 于 或 大 于 当前 对 象 。 

作为 一 个 便 用 接口 ， Hadoop 在 org.apache.hadoop.io 包 里 提供 了 一 个 writablecom- 
parable 接 口 。 


public interface WritableComparable extends Writable, Comparable 


{} 


3.13.2 ” wrapper 类 介绍 


幸运 的 是 ， 你 不 必 从 头 开始 。 正 如 你 所 看 到 的 ，Hadoop 提 供 了 包装 Java 原 始 类 型 并 实现 
WritableComparable 的 类 。 它 们 被 放置 在 org .apache .hadoop.io 包 。 


1. 原始 包装 类 


这 些 类 在 概念 上 与 原始 包装 类 相似 ， 如 java .1lang 中 的 Integer 和 Long。 它 们 保持 一 个 原 
始 值 ， 该 值 既 可 以 在 创建 类 的 时 候 设 置 ， 也 可 以 通过 setter 方 法 设置 。 























口 BooleanWritable 

口 ByteWritable 

C DoubleWritable 

O FloatWritable 

O IntWntable 

C LongWritable 

O VIntWritable: 可 变 长 度 的 整数 类 型 

口 VLongWritable: 可 变 长 度 的 长 整数 类 型 


2. 数组 包装 类 


这 些 类 为 其 他 writable 对 象 数 组 提供 了 可 写 封 装 。 例 如 ， 这 些 类 的 实例 可 以 存储 
IntWzitable 或 DoubleWritable 类 型 的 数组 ， 却 不 能 存储 原始 的 整数 或 浮 点 数 类 型 的 数组 。 
这 些 类 需要 继承 writable 类 。 如 下 所 示 : 











Q ArrayWritable 
Q TwoDArrayWritable 
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3. Map 包 装 类 


这 些 类 人 允许 使 用 java .util .Map 接 口 作为 键 或 者 值 。 需 要 注意 的 是 ， 它 们 被 定义 为 Map< 
Writable，Writable>， 并 有 效 管理 部 分 内 部 运行 时 类 型 检查 。 这 就 意味 着 弱化 了 编译 类 型 检 
查 ， 所 以 要 当心 。 











口 AbstractMapWritable: 这 是 其 他 具体 的 writable map 包 装 类 的 基 类 。 

口 MapWritable: 这 是 一 个 通用 的 map 包 装 类 ， 将 Writapble 键 映射 为 writable 值 。 

O SortedMapWritable: 这 是 MapWritable 类 的 一 个 特殊 实现 ， 它 同时 也 实现 了 
SortedMap 接 口 。 



































Z 


3.14 ”实践 环节 : 使 用 Writable 包装 类 
让 我 们 编写 一 个 类 ， 来 展示 实际 使 用 中 的 包装 类 


(1) 创建 WritablesTest.java 文 件 ， 键 入 下 列 内 容 : 


import org.apache.hadoop.io.* ; 
import java.util.* ; 


public class WritablesTest 
{ 
public static class IntArrayWritable extends ArrayWritable 
{ 
public IntArrayWritable() 
{ 
super (IntWritable.class) ; 
} 
} 


public static void main(String[] args) 
{ 

System.out.println("*** Primitive Writables ***") 
BooleanWritable booll = new BooleanWritable(true) ; 
ByteWritable bytel = new ByteWritable( (byte)3) ; 
System.out.printf("Boolean:$s Byte:$dWMn", booll, bytel. 


get()) ; 
IntWritable il = new IntWritable(5) ; 
IntWritable i2 - new IntWritable( 17) ; System. 
out.printf("I1:$d I2:$dWMn", il.get(), i2.get()) ; 
il.set(i2.get()) ; 
System.out.printf("I1:$d I2:$dWMn", il.get(), i2.get()) ; 


Integer i3 - new Integer( 23) ; 
il.set( i3) ; 
System.out.printf("I1:$d I2:9dWMn", il.get(), i2.get()) ; 


System.out.println("*** Array Writables ***") 
ArrayWritable a - new ArrayWritable( IntWritable.class) ; 
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a.set( new IntWritable[]( new IntWritable(1), new 
IntWritable(3), new IntWritable(5))]) ; 


IntWritable[] values = (IntWritable[]l)a.get() ; 


for (IntWritable i: values) 


System.out.println(i) ; 


IntArrayWritable ia - new IntArrayWritable() ; 
ia.set( new IntWritable[]( new IntWritable(1), new 
IntWritable(3), new IntWritable(5))]) ; 


IntWritable[] ivalues = (IntWritable[])ia.get() ; 
ia.set(new LongWritable[](new LongWritable(10001))) ; 


System.out.println("*** Map Writables ***") 
MapWritable m - new MapWritable() ; 
IntWritable key1 = new IntWritable(5) ; 
NullWritable valuel = NullWritable.get() ; 
m.put(keyl1, valuel1) ; 
System.out.println(m.containsKey(key1)) ; 
System.out.println(m.get(key1)) ; 
m.put (new LongWritable(1000000000), key1) ; 
Set«Writable» keys - m.keySet() ; 


for(Writable w: keys) 
System.out.println(w.getClass()) ; 


H 
(2) 编译 并 运行 该 类 ， 你 会 得 到 下 列 输出 : 


*** Primitive Writables *** 
Boolean:true Byte:3 

I1:5 I2:17 

I1:17 I2:17 

I1:23 I2:17 

*** Array Writables *** 

1 

3 

5 

*** Map Writables *** 

true 

(nu11) 

class org.apache.hadoop.io.LongWritable 
class org.apache.hadoop.io.IntWritable 


原理 分 析 
上 述 输出 的 含义 在 很 大 程度 上 是 不 言 自明 的 。 我 们 创建 了 多 个 wzitable 包 装 对 象 ， 并 展示 
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了 它们 的 一 般 用 法 。 其 中 ， 有 几 个 关键 点 。 


O 如 前 所 述 , writable 保证 了 自身 类 型 安全 性 。 因 此 ， 可 能 有 存储 多 种 数据 类 型 的 数组 或 
map, ， 如 上 述 示例 代码 所 示 。 

a 我 们 可 以 使 用 自动 拆 箱 , 例如 , 将 一 个 Integer 对 象 提供 给 参数 为 Intwritable 的 方法 ， 
该 方法 希望 收 到 的 参数 是 一 个 int 变 量 。 

O 如 果 ArrayWwritable 被 用 作 reduce 孙 数 的 输入 , 还 需要 一 个 内 部 类 , 必须 定义 一 个 带 有 
默认 构造 函数 的 子 类 。 


1. 其 他 包装 类 



































D Compressedwritable: 这 是 一 个 基 类 ， 它 允许 大 型 对 象 保持 压缩 ， 直 到 其 属性 被 显 式 
访问 。 

口 objectwritable: 这 是 一 个 多 用 途 的 通用 对 象 包装 类 。 

O NullWritable: 这 是 一 个 表示 空 值 的 对 象 。 

O versionedWritable: 这 是 一 个 允许 writable 类 跟踪 版 本 号 的 基本 实现 。 





























一 展 身手 : 练习 Writables 类 
练习 使 用 NullWritable 和 ObjectWritable 编 写 类 ， 如 同 之 前 的 例子 一 样 。 
2. 编写 自 定义 类 


正如 读者 在 writable 和 comparable 接 口 所 看 到 的 ， 所 需 方法 相当 简单 ; 如 果 读 者 想 在 
MapReduce 作 业 中 使 用 自 定 义 类 作为 键 或 者 值 ， 不 必 害 怕 增 加 这 样 的 功能 。 





3.15 输入 /输出 
我 们 已 多 次 提 到 驱动 类 的 一 个 功能 , 却 没有 进行 详细 解释 : 指定 MapReduce 作 业 的 输入 和 输 
出 的 数据 格式 和 结构 。 


3.15.1 文件、split 和 记录 
我 们 已 经 讨论 过 ， 在 作业 启动 时 ， 文 件 被 切 分 为 splt，split 中 的 数据 被 送 往 mapper。 然 而 ， 
却 忽视 了 两 个 方面 : 数据 在 文件 中 如 何 存储 以 及 单个 键 值 如 何 传 给 mapper。 


3.15.2 InputFormat 和 RecordReader 


对 于 第 一 个 问题 ,Hadoop 提 出 了 InputFormat 的 概念 。org .apache.hadoop .mapreduce 
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包 里 的 InputFormat 抽 象 类 提供 了 如 下 列 代码 所 示 的 两 个 方法 。 


public abstract class InputFormat<K, V> 

{ 

public abstract List«InputSplit» getSplits( JobContext context) ; 
RecordReader«K, V» createRecordReader(InputSplit split, 
TaskAttemptContext context) ; 

} 


这 些 方法 展示 了 InputFormat 类 的 两 个 功能 : 


口 将 输入 文件 切 分 为 map 处 理 所 需 要 的 split; 
口 创建 RecordReader 类 ， 它 将 从 一 个 split 生 成 键 值 对 序列 。 











Rec ordReader 类 同样 也 是 org .apache.hadoop. mapreduce 包 里 的 抽象 类 o 


public abstract class RecordReader«Key, Value» implements Closeable 
{ 
public abstract void initialize (InputSplit split, TaskAttemptContext 
context) ; 
public abstract boolean nextKeyValue() 
throws IOException, InterruptedException ; 
public abstract Key getCurrentKey() 
throws IOException, InterruptedException ; 
public abstract Value getCurrentValue() 
throws IOException, InterruptedException ; 
public abstract float getProgress() 
throws IOException, InterruptedException ; 
public abstract close() throws IOException ; 


} 








为 每 个 split 创 建 一 个 RecordReader 实 例 ， 该 实例 调用 getNextKeyvalue 并 返回 一 个 布尔 
值 ， 该 值 指明 下 一 个 键 值 对 是 否 可 用 。 如 果 答 案 是 肯定 的 ，getKey 和 getValue 方 法 被 用 于 分 别 
访问 键 和 值 。 


此 ， 组 合 使 用 InputFormat 和 RecordReader 可 以 将 任 何 类 型 的 输入 数据 转换 为 
MapReduce 所 需 的 键 值 对 。 








3.15.3 ”Hadoop 提 供 的 InputFormat 





Hadoop 在 org .apache.hadoop.mapreduce.1ib.input 包 里 提供 了 一 些 InputFormat 的 
实现 。 





口 FileInputFormat: 这 是 一 个 抽象 基 类 ， 它 可 以 作为 任何 基于 文件 输入 的 父 类 。 
口 SequenceFileInputFormat: 这 是 一 个 高 效 的 二 进 制 文件 格式 , 我 们 将 在 下 一 节 讨 论 它 。 
口 TextInputFormat: 它 用 于 普通 文本 文件 。 
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0.20 之 前 版 本 的 API 在 org .apache.hadoop.mapred 包 里 定义 了 一 些 其 他 


M f] InputFormat, 
Q 请 注意 ，InputFormat 并 不 局 限于 从 文件 读 取 数据 ，FileInputFormat 


本 身 就 是 InputFormat 的 子 类 。Hadoop 有 可 能 使 用 不 基于 文件 的 数据 作为 
MapReduce 作 业 的 输入 ， 常 见 的 数据 源 是 关系 数据 库 或 HBase。 


3.15.4 ”Hadoop 提 供 的 RecordReader 


类 似 地 ，Hadoop 在 org .apache.hadoop.mapreduce.1ip.input 包 里 也 提供 了 一 些 常见 
的 RecordReader 实 现 。 




















口 LineRecordReader: 这 是 RecordReader 类 对 文本 文件 的 默认 实现 ， 它 将 行 号 视 为 键 
并 将 该 行内 容 视 为 值 。 
口 SequenceFileRecordReader: 该 类 从 二 进 制 文件 SequenceFile 读 取 键 / 值 








同样 , 0.20 版 本 之 前 的 API 在 org .apache .hadoop .mapred 包 里 提供 了 其 他 RecordReader 
类 ， 例 如 KeyvalueRecordReader， 它们 没有 被 迁移 到 新 API。 


3.15.5 OutputFormat 和 RecordWriter 





采用 类 似 模 式 ,Org.apache.hadoop .mapreduce 包 里 的 0utputFormat 和 RecordWriter 
的 子 类 负责 共同 写 和 人 作业 输出 。 本 节 内 容 不 讨论 它们 的 细节 ,但 总 体 方法 是 相似 的 ， 尽 管 
outputEormat 为 验证 输出 规范 实现 了 更 为 复杂 的 API。 




















T 








Y 如 果 指定 的 输出 路 径 已 经 存在 ， 该 步骤 将 引发 作业 失败 。 如 果 你 想 改变 这 
Q 种 情况 ， 需 要 一 个 重 写 该 方法 的 OoutputFormat 子 类 。 


3.15.6 ”Hadoop 提 供 的 OutputFormat 
org.apache.hadoop.mapreduce. output 包 提供 了 下 列 OutputFormat 类 


O FileOutputFormat: 这 是 所 有 基于 文件 的 OutputFormat 的 基 类 。 

O NullOutputFormat: 这 是 一 个 虚拟 类 ， 它 丢弃 所 有 输出 并 对 文件 不 做 任何 写 人 。 
O SequenceFileOutputFormat: 它 将 输出 写 和 二进制 SequenceFile。 

口 TextoutputFormat: 它 把 输出 写 人 到 普通 文本 文件 。 
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请 注意 ， 上 述 类 把 它们 所 需 的 Recorawriter 定 义 为 内 部 类 ， 因 此 ， 不 存在 单独 实现 的 


RecordWriter2É, 


3.15.7 Az f Sequence files 








org.apache.hadoop.io 包 里 的 seauenceFile 类 提供 了 高 效 的 二 进 制 文件 格式 ， 它 经 常 
用 于 MapReduce 作 业 的 输出 。 尤 其 是 当 作业 的 输出 被 当做 男 一 个 作业 的 输入 时 。sequence 文 件 
有 如 下 几 个 优点 : 


a 作为 二 进 制 文件 ， 它 们 本 质 上 比 文本 文件 更 为 紧凑 ; 
a 它们 支持 不 同 层面 的 可 选 压缩 ， 也 就 是 说 ， 可 以 对 每 条 记录 或 整个 split 进 行 压缩 ; 
口 该 文件 可 被 并 行 切 分 和 处 理 。 


最 后 一 个 特性 很 重要 ， 大 多 数 二 进 制 格式 ( 尤其 是 压缩 或 加 密 文件 ) 是 无 法 切 分 的 ， 必须 以 
单独 的 线性 数据 流 的 形式 读 取 。 使 用 这 种 无 法 切 分 的 文件 作为 MapReduce 作 业 的 输入 ,意味 着 需 
要 使 用 一 个 单独 的 mapper 处 理 整 个 文件 ,造成 潜在 的 巨大 性 能 损失 。 在 此 情况 下 ,最 好 使 用 可 切 
分 的 格式 ,如 sequenceFile, 或 者 在 无 法 避免 接收 其 他 格式 文件 的 情况 下 ， 执 行 预 处 理 步 又 将 
其 转换 成 可 切 分 的 格式 。 这 需要 权衡 利弊 ， 因 为 文件 格式 转换 也 需要 一 定 的 时 间 。 但 在 很 多 情况 
下 ,尤其 是 处 理 复杂 的 map 任 务 时 ， 使 用 可 切 分 格式 所 节省 的 时 间 将 超过 文件 格式 转换 的 时 间 。 























3.16 小结 


本 章 讲述 了 MapReduce 的 大 量 基础 知识 ,现在 ,我 们 具备 了 深入 人 研究 MapReduce 的 基础 。 特 
别 是 ,我 们 学 习 了 键 值 对 是 被 广泛 应 用 的 数据 模型 ， 它 可 以 很 好 地 应 用 于 MapReduce 处 理 。 我 们 
也 学 习 了 如 何 使 用 0.20 及 以 上 版 本 的 Java API 编 写 mapper 和 reducer。 


随后 , 我 们 了 解 了 MapReduce 作 业 是 如 何 工作 的 , 以 及 map 与 reduce 方 法 是 怎样 通过 大 量 的 
协作 和 任务 调度 机 制 紧密 结合 在 一 起 的 。 我 们 还 了 解 到 ， 某 些 MapReduce 作 业 需 要 自 定义 的 


partitioner 或 combiner。 

我 们 还 人 研究 了 Hadoop 如 何 从 文件 系统 读 取 数据 并 将 输出 数据 写 入 文件 系统 。 它 使 用 
InputFormat 和 OutputFormat 的 概念 将 文件 作为 整体 进行 处 理 s 并 使 用 Rec ordReader 将 数据 
格式 转化 为 键 值 对 ， 然 后 使 用 Recorgdwriter 将 数据 格式 从 键 值 对 转换 为 所 需 格式 。 


有 了 这 些 知识 , 我 们 将 在 下 一 章 转 到 案例 学 习 。 该 案例 展示 了 如 何 持 续 开 发 和 改进 处 理 大 数 
据 集 的 MapReduce 程 序 。 


















































开发 MapReduce 程 序 








既然 我 们 已 经 探索 了 MapReduce 技 术 ， 本 章 将 介绍 如 何 使 用 MapReduce 
解决 实际 问题 。 特 别 是 ， 我 们 将 以 更 大 规模 的 数据 集 为 例 ， 探 索 使 用 
MapReduce 提 供 的 工具 分 析 数 据 集 的 方法 。 


本 章 包括 以 下 内 容 : 


口 Hadoop Streaming 及 其 使 用 ; 

口 UFO 目 击 事件 数据 集 ; 

口 使 用 Streaming 作 为 开发 或 调试 工具 ; 

a 在 一 个 作业 中 使 用 多 个 mapper; 

口 在 集群 上 高 效 共 享 实 用 程序 文件 和 数据 ; 

口 报告 作业 和 任务 的 状态 信息 及 可 用 于 调试 的 日 志 信 息 。 


本 章 不 仅 要 介绍 具体 的 工具 , 同时 也 要 介绍 如 何 分 析 新 数据 集 。 我 们 将 从 探寻 如 何 使 用 脚本 
编程 语言 辅助 MapReduce 进 行 原型 设计 和 初步 分 析 入 手 。 上 一 章 还 在 讲 Java API， 本 章 却 马 上 换 
了 男 一 种 语言 ， 这 似乎 看 起 来 很 奇怪 , 但 我 们 的 目的 是 让 读者 意识 到 ， 可 以 使 用 不 同方 法 解决 所 
面临 的 问题 。 虽 然 很 多 作业 没 必 要 用 Java API 以 外 的 其 他 语言 来 实现 ， 但 在 某 些 情况 下 ， 使 用 其 
他 方法 才 是 最 合适 的 。 相 信 这 些 技 术 为 你 增加 了 新 的 备 选 工具 , 并 且 有 了 这 些 经 验 ， 你 会 更 容易 
知道 在 给 定 场景 中 ， 哪 种 方法 才 是 最 佳 解决 方案 。 



































4.1 使 用 非 Java 语言 操作 Hadoop 


我 们 前 面 提 到 过 , 并 非 必须 使 用 Java 语 言 才 能 编写 MapReduce 程 序 。 虽 然 大 多 数 程序 是 用 Java 
编写 的 ， 但 由 于 某 些 原因 ， 读 者 希望 或 需要 用 另 一 种 语言 编写 map 和 reduce 任 务 。 比 如 ， 读 考 有 
一 些 现 有 代码 可 供 利 用 ， 或 者 需要 使 用 第 三 方 的 二 进 制 文件 等 ， 原 因 不 一 而 足 却 又 合情合理 。 





























76 第 43 FÈ MapReduce 程序 








Hadoop 提供 了 一 些 辅助 非 Java 开 发 的 机 制 ， 其 中 主要 包括 Hadoop Pipes fil Hadoop 
Streaming。 前 者 提供 了 Hadoop 的 原生 C++ 接口 ， 后 者 则 人 允许 将 任何 使 用 标准 输入 和 输出 的 程序 
用 于 map 和 reduce 任 务 。 本 章 ， 我 们 将 大 量 使 用 Hadoop Streaming。 








4.1.1 Hadoop Streaming 工 作 原 理 


map 和 reduce 任 务 利用 MapReduce Java API 提 供 实现 任务 功能 的 方法 。 这 些 方 法 将 其 参数 视 为 
任务 输入 ， 并 通过 context 对 象 输出 结果 。 这 是 一 个 明确 的 并 且 类 型 安全 的 接口 ， 但 是 专 为 Java 
定义 的 。 

Hadoop Streaming 采 用 了 不 同 的 方法 。 使 用 Streaming 编 写 的 map 任 务 每 次 从 标准 输入 读 取 一 
行内 容 作为 任务 输入 ， 并 将 任务 结果 输出 到 标准 输出 。reduce 任 务 执行 同样 的 操作 ， 而 且 其 数据 
流 同 样 使 用 标准 输入 和 输出 。 


任何 可 以 读 写 标准 输入 和 输出 的 程序 都 可 以 用 于 Streaming， 例 如 已 编译 的 二 进 制 文件 、 
Unixshell 脚 本 ， 或 用 像 Ruby 或 Python 这 样 的 动态 语言 编写 的 程序 等 。 



































4.1.2 ”使 用 Hadoop Streaming 的 原 


Streaming 最 大 的 优势 在 于 , 使 用 它 可 以 比 使 用 Java 更 快 地 反复 尝试 不 同 的 想法 ,与 “编译 /jar/ 
提交 ”的 Java 开 发 周期 不 同 ， 用 户 只 需 编写 脚本 ， 并 把 它们 作为 参数 传 给 Streaming jar 文 件 。 尤 
是 当 对 新 数据 集 进 行 初 步 分 析 或 尝试 新 想法 的 时 候 ，Streaming 可 以 明显 加 快 开发 进度 。 


动态 语言 和 静态 语言 各 有 所 长 , 动态 语言 适合 敏捷 开发 , 而 静态 语言 具有 运行 性 能 和 类 型 检 
查 的 优势 。 换 句 话 说， 静态 语言 有 的 ， 正 是 动态 语言 没有 的 , 反之 亦 然 。 当 使 用 Streaming 时 ， 动 
态 语言 的 缺点 同样 存在 。 因此, 我 们 倾向 于 在 前 期 分 析 时 使 用 Streaming， 而 在 实现 运行 于 产品 集 
群 的 作业 时 使 用 Java 语 言 。 


本 章 中 , 我 们 将 在 Streaming 例 子 中 使 用 Ruby 语 言 , 但 这 只 是 个 人 喜好 。 如 果 读 者 喜欢 用 shell 
脚本 或 其 他 语言 ， 比 如 Python ， 那 么 可 以 把 Ruby 脚 本 转换 成 自己 选择 的 语言 。 
























































4.2 ”实践 环节 : 使 用 Streaming 实现 WordCount 
让 我 们 老 调 重 弹 ， 通 过 执行 下 列 步骤 使 用 Streaming 再 次 实现 WordCount。 
(1) 将 以 下 内 容 保 存 为 wcmapper .rb 文件 。 
#/bin/env ruby 


while line = gets 


42. 实践 环节 : 使 用 Streaming 实现 WordCount — 77 





words = line.split("Nt") 
words.each( |word| puts word.strip+"\t1"}} 
end 


(2) 通过 执行 下 列 命 令 使 Wemapper.rb 成 为 可 执行 文件 。 
$ chmod «x wcmapper.rb 

(3) 将 以 下 文件 保存 为 wcreducer.rb « 
#!/usr/bin/env ruby 


current nil 


count = 0 


while line = gets 
word, counter = line.split("Nt") 





if word -- current 
count = count+1 
else 
puts current+"\t"+count.to_s if current 
current = word 
count = 1 
end 
end 
puts current+"\t"+count.to_s 


(4) 通过 执行 下 列 命令 使 wcreducer .rzb 成 为 可 执行 文件 。 
$ chmod +x wcreducer.rb 
(5) 利用 上 一 章 的 数据 文件 ， 以 Streaming 作 业 的 形式 执行 脚本 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar 
-file wcmapper.rb -mapper wcmapper.rb -file wcreducer.rb 

-reducer wcreducer.rb -input test.txt -output output 

packageJobJar: [wcmapper.rb, wcreducer.rb, /tmp/hadoop- 
hadoop/hadoop-unjar1531650352198893161/] [] /tmp/ 
Sstreamjob937274081293220534.jar tmpDir-null 

12/02/05 12:43:53 INFO mapred.FileInputFormat: Total input paths 

to process : 1 

12/02/05 12:43:53 INFO streaming.StreamJob: getLocalDirs(): [/var/ 
hadoop/mapred/local] 

12/02/05 12:43:53 INFO streaming.StreamJob: Running job: 

job 201202051234 0005 

12/02/05 12:44:01 INFO streaming.StreamJob: map 100% reduce 0% 
12/02/05 12:44:13 INFO streaming.StreamJob: map 100% reduce 100% 
12/02/05 12:44:16 INFO streaming.StreamJob: Job complete: 

job 201202051234 0005 

12/02/05 12:44:16 INFO streaming.StreamJob: Output: wcoutput 
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(6) 检查 结果 文件 。 


$ hadoop fs -cat output/part-00000 


原理 分 析 

就 这 个 例子 而 言 ， 实 际 上 不 用 理会 Ruby 代 码 的 细节 ， 即 使 读者 不 懂 这 门 语言 也 不 要 紧 。 

首先 ， 我们 创建 了 一 个 脚本 ， 它 将 作为 我 们 的 mapper。 该 脚本 使 用 gets 函 数 从 标准 输入 中 
读 取 一 行 ， 将 该 行 切 分 为 词语 ， 并 使 用 puts 函 数 将 词 与 值 1 写 到 标准 输出 。 然 后 ,我 们 把 该 脚本 
做 成 可 执行 文件 。 

本 例 中 ，reducer 则 稍微 复杂 一 些 , 其 原因 将 在 下 一 节 中 描述 。 无 论 如 何 , 它 按照 我 们 的 期 望 
执行 了 作业 ， 对 每 个 单词 出 现 的 次 数 进行 计数 ， 从 标准 输入 读 取 数 据 ,， 并 将 输出 的 最 终 值 提交 到 
标准 输出 。 同 样 ， 我 们 把 该 脚本 做 成 可 执行 文件 。 

需要 注意 的 是 ,在 这 两 种 情况 下 ,我 们 隐 式 地 使 用 了 前 几 章 讨论 的 Hadoop 输 入 和 输出 格式 。 
TextInputFormat 属性 处 理 源 文件 ， 并 每 次 为 map 脚 本 提供 一 行文 本 。 相 反 地 ， 
































TextoutputFormat 属 性 确保 准确 无 误 地 把 reduce 任 务 的 输出 写 和 人 文本 数据 。 当 然 ， 我 们 可 以 根 
据 需要 进行 修改 。 


接 下 来 ,我 们 通过 相当 繁琐 的 命令 行将 Streaming 作 业 提 交 到 Hadoop。 每 个 脚本 文件 之 所 以 被 
指定 了 两 次 ， 是 因为 每 个 节点 上 无 法 使 用 的 文件 都 必须 由 Hadoop 打 包 并 在 集群 内 部 流转 ， 注 意 需 
要 通过 -file 选 项 来 指定 。 我 们 还 需要 告诉 Hadoop , 分 别 由 哪个 脚本 文件 担任 mapper 和 reducer 角 色 。 


最 后 ， 我 们 查看 作业 的 输出 ， 它 应 当 与 前 述 基于 Java 实 现 WordCount 的 输出 一 致 。 


























在 作业 中 使 用 Streaming 的 区 别 


使 用 Streaming 的 WordCount mapper 看 起 来 比 Java 版 本 简单 很 多 , 但 reducer 的 逻辑 似乎 更 为 复 
杂 。 这 是 为 什么 呢 ? 原因 是 ， 当 使 用 Streaming 时 ，Hadoop 和 任务 之 间 的 隐 含 协议 发 生 了 变化 。 


在 Java 中 ， 我 们 知道 ， 对 于 每 个 输入 键 值 对 ，map () 方 法 都 会 被 调用 一 次 ; 对 于 每 个 键 及 其 
相应 的 一 系列 值 ，reduce() 方 法 也 会 分 别 被 调用 。 


在 Streaming 中 ， 不 再 存在 map 或 reduce 方 法 的 概念 ， 我 们 只 能 自己 编写 脚本 处 理 收 到 的 数 
据 流 。 这 改变 了 用 户 编写 reducer 的 方式 。 在 Java 中 ，Hadoop 负 责 为 每 个 键 的 对 应 值 进行 分 组 ， 每 
次 调用 reduce 方 法 都 会 接收 一 个 键 和 与 之 对 应 的 所 有 值 列 表 。 在 Streaming 中 ,每 个 reduce 任 务 
的 实例 每 次 接收 一 个 单独 的 未 分 组 的 值 。 
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Hadoop Streaming 对 键 进行 了 排序 。 例 如 ， 假 如 mapper 输 出 如 下 数据 : 


First 
Word 
Word 
A 
First 


Streaming reducer 将 以 下 列 顺序 接收 这 些 数据 : 


A 
First 
First 
word 
word 


Hadoop 仍 然 收集 每 个 键 的 值 ， 并 确保 每 个 键 只 传递 给 一 个 reducer。 换 名 话说 ，reducer 得 到 
若干 键 的 所 有 值 ， 它 们 已 被 组 合 在 一 起 。 然 而 ， 它 们 不 会 被 打包 到 单个 reducer 执 行 ， 也 就 是 说 ， 
每 次 执行 一 个 键 ， 与 Java API 中 完全 一 样 。 


这 就 解释 了 Ruby reducer 使 用 的 机 制 : 它 首先 为 当前 的 词语 设置 空 的 默认 值 ， 然 后 在 读 取 每 
行内 容 后 ,确定 该 行 的 键 与 前 一 行 的 键 是 否 相 同 。 如 果 管 案 是 肯定 的 ， 累加 该 键 的 值 。 否 则 ，, 保 
持 前 一 个 键 的 值 不 变 ， 其 最 终结 果 被 发 送 到 标准 输出 ， 并 开始 为 新 词 计数 。 


前 几 章 我 们 一 直 在 说 Hadoop 为 我 们 做 了 多 少 多 少 工 作 ， 好 像 有 多 复杂 似 的 。 但 只 要 写 几 个 
Streaming reducer， 你 就 会 发 现实 际 上 没 那么 复杂 。 同 时 请 记 住 ，Hadoop 仍 然 负 责 向 不 同 map 任 
务 分 配 split， 以 及 将 给 定 键 的 对 应 值 发 送 给 同一 个 reducer。 这 些 行为 可 以 通过 配置 更 改 mapper 和 
reducer 的 数量 来 改变 ， 就 像 使 用 Java API 一 样 。 
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4.3 分析 大 数据 集 


有 了 使 用 Java 和 Streaming 编 写 MapReduce 作 业 的 能 力 之 后 , 现在 我 们 将 探讨 一 个 比 之 前 见 过 
的 任何 数据 集 都 更 有 意义 的 数据 集 。 我 们 将 讨论 如 何 分 析 大 数据 集 , 以 及 Hadoop 可 以 解答 的 关于 
大 数据 集 的 各 种 问题 。 








4.3.1 ”获取 UFO 目 击 事件 数据 集 


我 们 将 使 用 一 个 公共 领域 数据 集 ， 它 包含 了 超过 60 000 次 UFO 目 击 事件 的 数据 。 这 个 数据 集 
由 InfoChimps 托 管 在 http://www.infochimps.com/datasets/60000-documented-ufo-sightings-with-text- 


descriptions-and-metada。 


要 下 载 这 个 数据 集 ， 需 要 注册 一 个 免费 的 InfoChimps 账 号 。 
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这 些 数据 由 一 系列 包含 下 列 字 段 的 UFO 目 击 事件 记录 组 成 。 


(1) Sighting date: UFO 目 击 事件 发 生 的 时 间 。 

(2) Recorded date: 报告 目击 事件 的 日 期 ， 通 党 与 目击 事件 时 间 不 同 。 
(3) Location: 目击 事件 发 生 的 地 点 。 

(4) Shape: UFO 形 状 的 简要 描述 ， 例 如， 菱形 、 发 光 体 、 圆 简 状 。 

(5) Duration: 目击 事件 的 持续 时 间 。 

(6) Description; 目击 事件 的 大 致 描述 。 


下 载 完成 后 ， 读 者 会 发 现 该 数据 有 多 种 格式 。 我 们 将 使 用 .tsv ( 制 表 符 分 隔 值 ) 版 本 。 



































4.3.2 了 解数 据 集 


当面 临 一 个 新 数据 集 的 时 候 , 通常 很 难 感知 其 性 质 、 广 度 和 涉及 数据 的 质量 。 在 着 手 后 续 分 
析 之 前 ,通常 需要 先 搞 清 楚 儿 个 问题 。 


口 数据 集 有 和 多大? 
口 记录 的 完整 性 如 何 ? 
口 记录 与 我 们 期 待 的 格式 匹配 程度 如 何 ? 


第 一 个 问题 是 一 个 简单 的 数据 规模 的 问题 。 我 们 谈论 的 是 数 百 、 数 千 、 数 百 万 , 或 是 更 多 的 
记录 吗 ? 第 二 个 问题 是 询问 数据 的 完整 性 。 假如 你 希望 每 条 记录 有 10 个 字段 ( 如 果 是 结构 化 或 半 
结构 化 数据 )， 那 么 有 多 少 条 记录 的 关键 字段 非 空 ” 最 后 一 个 问题 在 这 一 点 上 进行 扩展 ， 记 录 的 
表现 形式 与 你 所 期 望 的 数据 格式 和 展示 形式 是 否 吻 合 ? 



























































4.4 实践 环节 : 统计 汇总 UFO 数据 
现在 我 们 有 了 这 些 数据 ， 让 我 们 先 统计 一 下 数据 规模 ， 以 及 多 少 条 记录 是 不 完整 的 。 


(1) 以 ufo.tsv 为 名 在 HDFS 上 保存 UFO 制 表 符 分 隔 值 (TSV ) 数据 文件 的 同时 ， 将 下 列 内 容 
保存 为 summarymapper .rb 文件 。 


#!/usr/bin/env ruby 


while line = gets 
puts "totalNti1" 
parts = line.split("Nt") 
puts "badlineNtl" if parts.size !- 6 
puts "sighted\t1" if !parts[0].empty? 
puts "recordedNti" if !parts[1].empty? 
puts "locationNti" if !parts[2].empty? 
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puts "shapeNtl" if !parts[3].empty? 

puts "durationNt1" if !parts[4].empty? 

puts "descriptionNti1" if !parts[5].empty? 
end 


(2) 执行 下 列 命令 ， 使 summarymapper .rb 成 为 可 执行 文件 。 
$ chmod «x summarymapper.rb 
(3) 使 用 Streaming 执 行 作 业 ， 如 下 所 示 。 
$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar 


-file summarymapper.rb -mapper summarymapper.rb -file wcreducer.rb 
-reducer wcreducer.rb -input ufo.tsv -output ufosummary 


(4) 获取 汇总 数据 。 


$ hadoop fs -cat ufosummary/part-0000 


原理 分 析 
请 记 住 ,我们 的 UFO 目 击 事件 应 该 有 前 述 的 6 个 字段 。 它 们 分 别 是 ; 


口 目击 事件 的 日 期 
口 报告 目击 事件 的 日 期 
口 目击 事件 的 地 点 
口 UFO 的 形状 
口 目击 事件 的 持续 时 间 
口 事件 的 大 致 描述 


mapper 处 理 文件 ， 除 识别 潜在 的 不 完整 记录 ， 还 统计 了 记录 总 数 。 














在 处 理 文件 时 , 我 们 通过 简单 地 计数 遇 到 多 少 不 同 的 记录 , 得 到 了 记录 总 数 。 有 一 些 记录 要 





么 少 于 6 个 字段 ， 要 么 至 少 有 一 个 字段 的 值 为 空 ， 在 处 理 文件 时 通过 标记 这 些 记录 来 识 


的 不 完整 记录 。 
因此 ，mapper 在 完成 文件 处 理 任 务 时 ， 读 取 每 一 行 并 完成 了 以 下 3 项 工作 。 


口 输出 已 被 处 理 的 记录 总 数 ， 该 值 随 着 程序 运行 不 断 递增 。 

a 以 制 表 符 来 分 隔 记录 ， 并 输出 少 于 6 个 字段 的 记录 总 数 。 

口 对 6 个 预期 字段 ，mapper 输 出 字段 值 非 空 (也 就 是 该 字段 有 数据 ) 的 字段 数 ， 
据 质 量 没 有 关系 。 

















别 出 潜 在 


尽管 这 与 数 








82 $43 FË MapReduce 程序 




















我 们 故意 把 mapper 编 写成 输出 (token, count) 的 形式 。 这 样 就 能 够 使 用 以 前 实现 的 
WordCount reducer 作 为 这 个 作业 的 reducer。 当 然 , 还 有 更 高 效 的 实现 方式 , 但 考虑 到 这 个 作业 不 
可 能 被 频繁 地 执行 ， 为 了 方便 ， 这 样 做 是 值得 的 。 


在 写作 本 书 时 ， 本 作业 的 输出 结果 如 下 所 示 。 


badline324 
description61372 
duration58961 
location61377 
recorded61377 
shape58855 
sighted61377 
total61377 


从 这 些 数字 我 们 可 以 看 出 ， 共 有 61 300 条 记录 。 这 些 记录 都 提供 了 目击 事件 发 生 的 时 间 、 报 
告 时 间 ， 以 及 目击 事件 发 生地 这 些 字段 的 值 。 大 约 58 000-59 000 条 记录 有 形状 和 持续 时 间 的 值 ， 
几乎 所 有 记录 都 有 相关 描述 。 


当 用 制 表 符 分 割 时 ， 我 们 发 现 有 372 行 记录 的 字段 不 足 6 个 。 然 而 ， 因 为 只 有 5 条 记录 的 “ 描 
述 ” 字 段 没 有 值 ， 这 表明 不 完整 记录 中 的 制 表 符 不 是 太 少 ,而 是 太 多 了 。 当 然 , 我 们 可 以 基于 这 
个 事实 调整 mapper 以 收集 详细 信息 。 这 可 能 是 由 文本 描述 使 用 的 制 表 符 所 致 。 不 过 就 眼下 的 分 析 
而 言 ， 我 们 姑且 认为 大 多 数 记录 都 有 6 个 字段 ， 而 且 每 个 字段 都 有 值 好 了 。 至 于 每 条 记录 中 是 不 
是 有 多 余 的 制 表 符 ， 先 不 管 了 。 


调查 UFO 形 状 















































在 这 些 报 告 的 所 有 字段 中 , 形状 是 最 直接 引起 我 们 兴趣 的 ， 因为 基于 该 字段 信息 , 我 们 可 以 
对 数据 采取 一 些 有 意思 的 分 组 方式 。 





4.5 ”实践 环节 : 统计 形状 数据 
刚才 统计 了 UFO 数 据 集 的 记录 总 数 ， 现 在 让 我 们 对 UFO 形 状 数据 进行 针对 性 的 统计 。 
(1) 将 下 列 代码 保存 为 shapemapper .rb 文件 。 
#!/usr/bin/env ruby 


while line = gets 
parts = Line.split("\t") 
if parts.size == 6 
shape = parts[3].strip 
puts shape+"\t1" if !shape.empty? 
end 
end 
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(2) Z shapemapper .xb 文件 增加 可 执行 权限 。 
$ chmod +x shapemapper.rb 
(3) 再 次 使 用 WordCount reducer 执 行 这 个 作业 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jarr 
--file shapemapper.rb -mapper shapemapper.rb -file wcreducer.rb 
-reducer wcreducer.rb -input ufo.tsv -output shapes 


(4) 获取 形 状 数据 信 息 o 


$ hadoop fs -cat shapes/part-00000 


原理 分 析 


本 例 使 用 的 mapper 相 当 简 单 。 它 把 每 条 记录 按 其 组 成 字段 分 开 ， 丢 弃 不 足 6 个 字段 的 记录 ， 
使 用 计数 器 统计 形状 字段 非 空 的 记录 数 并 输出 该 值 。 


出 于 本 节目 的 , 我 们 乐于 忽略 任何 与 期 望 的 规则 不 匹配 的 记录 。 也 许 一 次 UFO 目 击 事件 的 记 
录 将 彻底 证 明 UFO 是 确实 存在 的 , 但 即便 如 此 , 一 次 记录 不 可 能 对 我 们 的 分 析 有 太 大 影响 。 在 决 
定 丢 弃 一 些 记录 之 前 , 应 仔细 考虑 一 下 不 同 记录 的 潜在 可 能 值 。 如 果 读 者 投身 于 更 关注 某 种 变化 
趋势 的 聚 类 工作 , 那么 个 别 记录 可 能 无 足 轻重 。 但 是 在 个 别 值 可 能 严重 影响 分 析 结论 或 者 必须 考 
虑 在 内 的 情况 下 ， 不 能 弃 用 这 些 记 录 ， 最 好 试 着 小 心 辟 翼 地 解析 并 恢复 它们 。 我 们 将 在 第 6 章 中 
对 这 种 权衡 进行 更 多 的 讨论 。 

像 往常 一 样 ， 将 mapper 设 置 可 执行 属性 并 运行 生成 的 作业 后 ， 结 果 表 明 有 29 种 不 同 的 UFO 
形状 。 为 节省 版 面 ， 这 里 以 制 表 符 分 割 的 紧凑 结构 展示 作业 的 输出 。 












































changed1 changing1533 chevron758 cigar1774 
circle5250 cone265 crescent2 cross177 
cylinder981 delta8 diamond909 disk4798 
domel egg661 fireball3437 flarel 

flash988 formation1775 hexagonl light12140 
other4574 oval2859 pyramid1 rectangle957 
round2 sphere3614 teardrop592 triangle6036 
unknown4459 


正如 我 们 所 看 到 的 , 不 同形 状 的 目击 事件 发 生 的 频率 相差 很 大 。 某 些 形状 的 UFO 目 击 事件 只 
出 现 过 1 次 ， 如 pyramid ( 金字 塔 )， 而 light ( 发 光 体 ) 出 现 的 频率 超过 了 全 部 目击 事件 的 /5。 考 
虑 到 许多 UFO 目 击 事件 发 生 在 夜晚 , 可 能 有 人 认为 发 光 体 的 描述 并 不 是 非常 有 用 , 或 者 不 够 具体 。 
如 果 再 算 上 other ( 其 他 ) 和 unknown (未 知 )， 我 们 看 到 58 000 次 形状 报告 中 约 有 21 000 个 实际 上 
可 能 没有 任何 用 处。 我们 并 不 打算 蚀 根 究 底 或 者 做 其 他 研究 ， 所 以 到 底 有 多 少 次 目击 事件 的 形状 
是 有 用 的 这 一 点 并 不 十 分 重要 。 但 重要 的 是 , 我 们 要 开始 从 这 些 角 度 考 虑 数据 。 甚 至 通过 这 些 类 
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事件 中 ， 只 有 58 000 次 事件 报告 的 形状 字段 非 空 











否 能 满足 实际 需要 。 


型 的 统计 分 析 ， 我 们 能 够 洞察 数据 本 质 和 分 析 结 论 的 质量 。 例 如 ， 我 们 已 经 发 现在 61 000 次 目击 
而 这 其 中 又 有 21 000 次 目击 事件 的 形状 字段 是 
这 样 ， 我 们 就 知道 61 000 次 目击 事件 的 样本 集 只 提供 了 37 000 个 可 能 开展 工作 的 形状 报 
o 如果 你 的 分 析 结 论 建立 在 少量 样本 基础 之 上 , 那么 一 定 要 进行 这 种 前 期 统计 以 确定 数据 集 是 
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4.6 ”实践 环节 : 找 出 目击 事件 的 持续 时 间 与 UFO 形状 的 关系 


让 我 们 稍 加 详细 地 分 析 形 状 数据 。 我 们 想 知 道 ， 在 


目击 事件 的 持续 时 间 与 UFO 形 状 之 间 是 否 


存在 某 种 关联 。 也 许 雪茄 状 UFO 比 其 他 形状 UFO 桂 续 的 时 间 更 长 ， 又 或 许 UFO 编 队 的 持续 时 间 总 


是 固定 的 。 


(1) 保存 下 列 内 容 为 shapetimemapper.rb 文 件 。 
d$1/usr/bin/env ruby 
pattern = Regexp.new / \d* ?((min)|(sec))/ 


while line = gets 
parts = line.split("Nt") 
if parts.size -- 


shape - parts[3].strip 

duration = parts[4].strip.downcase 
if !shape.empty? && !duration.empty? 
match - pattern.match (duration) 


time = / Nd*/.match (match[0]) [0] 
unit - match[1] 

time - Integer(time) 

time - time * 60 if unit -- "min" 
if unit ss Amin" 

puts shape-"NVt"-«time.to s 

end 

end 

end 


(2) 通过 执行 以 下 命令 把 shapetimemapper .rb 文件 做 成 可 执行 文件 。 


$ chmod +x shapetimemapper.rb 


(3) 保存 下 列 内 容 为 shapetimereducer .rb 文件 。 


#!/usr/bin/env ruby 


current = nil 
min - 0 
max - 0 
mean = 0 
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total = 0 
count = 0 


while line = gets 
word, time = line.split("\t") 


time = Integer (time) 
if word == current 
count = count+1 


total = total+time 

min = time if time < min 
max = time if time > max 
else 

puts current+"\t"+min.to_s+" "+max.to_s+" "-«(total/count).to s if 
current 

current - word 

count - 1 

total - time 

min - time 

max - time 





end 
puts current-"Nt"«min.to s-" "+max.to_s+" "«(total/count).to s 


(4) 通过 执行 以 下 命令 把 shapetimereducer .rzrb 做 成 可 执行 文件 。 
$ chmod +x shapetimereducer.rb 
(5) 运行 作业 。 


$ hadoop jar hadoop/contrib/streaminghHadoop-streaming-1.0.3.jar 
-file shapetimemapper.rb -mapper shapetimemapper.rb -file 
Shapetimereducer.rb -reducer shapetimereducer.rb -input ufo.tsv 
-output shapetime 


(6) 获取 结果 。 


$ hadoop fs -cat shapetime/part-00000 


原理 分 析 


由 于 持续 时 间 字 段 的 原因 , mapper 比 之 前 的 例子 稍微 复杂 一 些 。 快 速 浏览 一 些 示 例 记录 , 我 
们 发 现 部 分 记录 的 持续 时 间 字 段 值 如 下 。 


15 seconds 

2 minutes 

2 min 
2minutes 
5-10 seconds 


换 名 话说, 持续 时 间 字 段 的 值 既 可 能 是 时 间 区 间 , 也 可 能 是 绝对 的 时 间 值 , 而 且 其 格式 不 同 ， 
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时 间 单 位 不 一 致 。 为 简单 起 见 ， 我 们 决定 对 数据 进行 有 限 解释 : 如 果 存 在 绝对 的 时 间 值 ,我 们 就 
采用 该 值 ， 否 则 采用 时 间 区 间 的 上 限 作为 某 次 UFO 目 击 事件 的 持续 时 间 。 假 设 时 间 单 位 用 min 或 
者 sec 字 符 串 表示 ， 并 将 所 有 的 时 间 都 转 为 以 秒 为 单位 。 借 助 一 些 正则 表达 式 ， 我 们 依照 上 述 规 
则 分 解 持续 时 间 字 段 的 值 ， 并 将 其 转换 为 以 秘 为 单位 。 请 再 次 注意 , 我 们 简单 地 弃 用 那些 与 预期 
规则 不 一 致 的 记录 ， 当 然 这 个 做 法 不 一 定 总 是 合适 的 。 


遵循 与 之 前 示例 中 的 reducer 相 同 的 模式 , 从 一 个 默认 键 开 始 读 取 该 键 的 值 , 直到 遇 到 一 个 寺 
的 键 。 在 这 种 情况 下 ,我 们 想 要 获取 每 种 形状 的 UFO 持 续 时 间 的 极 小 值 、 极 大 值 、 平 均值 ， 因 此 
需要 使 用 大 量变 量 来 跟踪 所 需 数据 。 


请 记 住 ，Streaming reducer 需 要 处 理 多 个 键 及 与 每 个 键 对 应 的 一 系列 值 ， 当 新 一 行 的 键 发 生 
变化 时 , reducer 需 要 识别 这 个 变化 , 因此 , 需要 标识 已 处 理 的 前 一 个 键 的 最 后 一 个 值 。 与 此 相反 ， 
Java reducer 更 简单 一 些 ， 每 次 执行 中 仅 处 理 一 个 键 的 关联 值 。 


把 mapper 和 reducer 都 做 成 可 执行 文件 之 后 , 运行 本 作业 并 获得 如 下 结果 。 这 些 结果 中 除去 了 
目击 次 数 少 于 10 次 的 UFO 形 状 ， 而 且 为 节省 空间 ,输出 更 为 紧凑 。 紧 跟 每 个 形状 的 几 个 数字 分 别 
是 其 持续 时 间 的 最 小 值 、 最 大 值 以 及 平均 值 。 


changing0 5400 670 chevron0 3600 333 
cigar0 5400 370 circleO 7200 423 
cone0 4500 498 cross2 3600 460 
cylinder0 5760 380 diamondO 7800 519 
disk0 5400 449 egg0 5400 383 
fireballO 5400 236 flash0 7200 303 
formation0 5400 434 lightO 9000 462 
other0 5400 418 oval0 5400 405 
rectangleO0 4200 352 Sphere0 14400 396 
teardropO0 2700 335 triangleO 18000 375 
unknownO 6000 470 


令 人 惊奇 的 是 , 所 有 形状 的 平均 持续 时 间 的 变化 范围 相对 较 小 。 大 多 数 UFO 目 击 事件 的 平均 
持续 时 间 在 350~430 秒 之 间 。 而 且 有 趣 的 是 , 我 们 也 看 到 ，fireball KER) 的 平均 持续 时 间 最 短 ， 
changing ( 变化 不 定 ) 的 平均 持续 时 间 最 长 ， 这 两 者 在 某 种 程度 上 都 符合 人 的 直觉 。 火 球 嘛 ， 当 
然 不 会 持续 太 久 ， 而 变化 不 定 的 物体 可 能 需要 较 长 时 间 人 们 才能 注意 到 它 的 变化 。 













































































在 Hadoop 外 部 使 用 Streaming 脚 本 


最 后 一 个 例子 的 mapper 和 reducer 更 为 复杂 ， 它 很 好 地 说 明了 使 用 Streaming 帮 助 MapReduce 
开发 的 另 一 种 方法 : 在 Hadoop 外 部 执行 Streaming 脚 本 。 

通常 ,在 MapReduce 开 发 过 程 中 使 用 产品 数据 示例 来 测试 代码 是 一 种 较 好 的 做 法 。 但 在 HDFS 
上 使 用 Java 编 写 map 和 reduce 任 务 使 调试 问题 或 改进 复杂 逻辑 变 得 很 困难 。 而 使 用 从 命令 行 读 取 输 
入 的 map 和 reduce 任 务 ， 读 者 可 以 直接 用 一 些 数 据 测试 它们 ， 人 快速 从 结果 中 得 到 反馈 。 如 果 读 者 
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的 开发 环境 可 以 集成 Hadoop 或 者 在 独立 模式 下 使 用 Hadoop， 问 题 是 最 少 的 。 记 住 ，Streaming 允 
许 用 户 在 Hadoop 外 部 使 用 脚本 ， 没 准 哪 一 天 你 就 能 用 上 这 个 技术 。 

在 开发 这 些 脚 本 的 时 候 , 作者 注意 到 , 在 他 使 用 的 UFO 数 据 文件 中 , 最 后 一 组 记录 的 数据 结 
构 化 程度 要 优 于 文件 开头 部 分 数据 。 使 用 mapper 执 行 快 速 测 试 只 需 使 用 如 下 命令 : 

$ tail ufo.tsv shapetimemapper.rb 


这 个 方法 可 被 应 用 到 使 用 map 和 reduce 脚 本 的 整个 工作 流程 。 

















4.7 ”实践 环节 : 在 命令 行 中 执行 形状 /时 间 分 析 
通过 本 地 命令 行 的 方式 执行 这 种 数据 分 析 的 方法 可 能 不 是 很 明显 ， 因 此 我 们 先 看 一 个 例子 。 
对 存储 在 本 地 文件 系统 的 UFO 数 据 文件 ， 执 行 下 列 命令 : 


$ cat ufo.tsv | shapetimemapper.rb | sort| shapetimereducer.rb 


原理 分 析 


得 短 的 一 句 Unix 命 令 行 产 生 的 输出 , 却 与 之 前 完整 的 MapReduce 作 业 的 输出 一 模 一 样 , 简直 
不 可 思议 。 详 细 分 析 上 述 命 令 所 执行 的 操作 ， 就 会 明白 其 原因 。 


首先 ,将 输入 文件 按 行 发 送 给 mapper， 每 次 一 行 。 这 个 步骤 的 输出 被 传 到 Unix sort 工 具 ， 经 
过 排序 的 输出 又 被 按 行 传 给 reducer。 当 然 ， 这 是 常用 MapReduce 作 业 流 程 的 简化 表示 。 


那么 ， 显而易见 的 问题 是 ， 如 果 我 们 能 使 用 命令 行进 行 等 效 分 析 ， 为 什么 还 要 用 Hadoop 呢 ? 
答案 依然 照旧 一 一 大 数据 处 理 。 这 种 简单 的 方法 可 以 有 效 处 理 类 似 UFO 目 击 事件 这 样 大 小 的 数据 文 
件 ， 这 个 文件 虽 不 算 小 ， 也 只 有 71 MB。 今 天， 随便 找 一 块 硬 盘 就 可 以 容纳 数 和 干 份 这 样 的 数据 集 。 

那么 ， 如 果 数 据 集 大 小 是 71 GB， 其 至 是 71 TB ， 该 怎么 办 呢 ? 在 后 一 种 情况 下 ， 至 少 需要 
将 数据 分 布 在 多 台 主 机 ,然后 决定 如 何 切 分 数据 ,组 合 部 分 答案 ,并 且 处 理 遇 到 的 不 可 避免 的 故 
障 。 换 句 话 说， 这 时 候 就 需要 类 似 Hadoop 这 样 的 工具 了 。 

然而 , 也 不 要 小 看 使 用 类 似 的 命令 行 工具 , 这 些 方法 应 当 在 MapReduce 开 发 过 程 中 得 到 良好 
使 用 。 





























使 用 Java 分 析 形 状 和 地 点 
现在 ， 我 们 考虑 用 Java MapReduce API 对 UFO 有 目击 事件 报告 中 的 形状 和 地 点 数据 进行 分 析 。 
在 开始 编写 代码 之 前 , 回想 一 下 前 面 是 如 何 分 析 UFO 目 击 事 件数 据 集 的 各 个 字段 的 。 之 前 的 
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mapper 有 一 个 通用 的 模式 。 


口 丢弃 已 损坏 记录 。 








O 处 理 有 效 记录 ， 提 取 感 兴趣 的 字段 。 
a 针对 这 些 记 录 ， 输 出 我 们 所 关注 的 数据 。 


现在 , 假如 我 们 打算 编写 Java mapper 来 分 析 UFO 目 击 事件 发 生 的 地 点 , 之 后 可 能 分 析 报 告 时 
间 ， 我 们 将 遵循 类 似 的 模式 。 那 么 ， 我 们 是 否 可 以 避免 由 此 产生 的 代码 重复 问题 呢 ? 





He 


答案 是 肯定 的 ， 通过 使 用 org .apache.hadoop.mapred.lib. chainMapper 即 可 解决 该 问 
题 。chainMapper 类 可 以 顺序 执行 多 个 mapper ， 而 且 最 后 的 mapper 输 出 会 传递 给 reducer。 
ChainMapper 不 仅 适 用 于 这 种 数据 清理 , 而 且 在 分 析 特 定 作 业 时 , 先 通 过 它 执 行 多 个 map 型 任务 








再 应 用 reducer 的 做 法 也 很 常见 。 











这 种 做 法 需要 编写 一 个 校 验 mapper, 它 可 用 于 将 来 所 有 的 字段 分 析 作 业 。 校 验 mapper 会 丢弃 
错误 记录 行 ， 只 将 有 效 的 行 传人 实际 的 业务 逻辑 mapper。 这 样 的 话 ， 目 前 的 业务 逻辑 mapper 就 可 
以 专 广 于 分 析 数 据 而 不 用 担心 粗 粒 度 的 校 验 。 


男 一 种 可 供 选择 的 做 法 是 ， 在 自 定义 的 InputFormat 类 中 验证 数据 并 丢弃 无 效 记 录 。 哪 一 
种 方法 更 合理 取决 于 用 户 的 特定 情况 。 


链 里 的 每 个 mapper 都 会 在 一 个 独立 的 JVM 中 执行 ,所 以 不 必 担 心 使 用 多 个 mapper 会 增加 文件 


系统 的 IO 负载 。 





4.8 ”实践 环节 : 使 用 ChainMapper 进行 字段 验证 /分 析 
让 我 们 在 作业 中 使 用 chainMapper 类 验证 记录 是 否 有 效 。 


(1) 在 UFORecordValidationMapper.java 文 件 中 创建 如 下 类 。 


import java.io.IOException; 


import org.apache.hadoop.io.* ; 
import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 


public class UFORecordValidationMapper extends MapReduceBase 
implements Mapper«LongWritable, Text, LongWritable, Text» 


{ 


public void map(LongWritable key, Text value, 
OutputCollector«LongWritable, Text» output, 


Reporter reporter) 


{ 


throws IOException 


String line = value.toString(); 
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if (validate(line)) 
output.collect(key, value); 


} 
private boolean validate (String str) 
{ 
String[] parts = str.split("Nt") 
if (parts.length !- 6) 
return false ; 
return true ; 
} 
} 





(2) 使 用 下 列 代码 创建 UFOLocation.java 文 件 。 





import java.io.IOException; 
import java.util.Iterator ; 
import java.util.regex.* ; 


import org.apache.hadoop.conf.* ; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.* ; 

import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 


public class UFOLocation 


{ 


public static class MapClass extends MapReduceBase 
implements Mapper«LongWritable, Text, Text, LongWritable» 
{ 


private final static LongWritable one = new LongWritable(1); 
private static Pattern locationPattern - Pattern.compile( 
"[a-zA-Z] (2) [^a-zA-Z] *$") 


public void map(LongWritable key, Text value, 
OutputCollector«Text, LongWritable» output, 
Reporter reporter) throws IOException 
{ 
String line = value.toString(); 
String[] fields = line.split("\t") 
String location = fields[2].trim() ; 


if (location.length() >= 2) 
{ 


Matcher matcher = locationPattern.matcher (location) ; 
if (matcher.find() ) 
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int start = matcher.start() ; 
String state = location.substring(start, start+2); 


output.collect (new Text (state.toUpperCase()), One); 


public static void main(String[] args) throws Exception 
{ 

Configuration config = new Configuration() ; 
JobConf conf - new JobConf(config, UFOLocation.class); 
conf.setJobName ("UFOLocation"); 


conf.setOutputKeyClass(Text.class); 
conf.setOutputValueClass (LongWritable.class); 


JobConf mapconf1 = new JobConf(false) ; 
ChainMapper.addMapper( conf, UFORecordValidationMapper.class, 
LongWritable.class, Text.class, LongWritable.class, 
Text.class, true, mapconfl) ; 


JobConf mapconf2 - new JobConf(false) ; 
ChainMapper.addMapper( conf, MapClass.class, 
LongWritable.class, Text.class, 

Text.class, LongWritable.class, true, mapconf2) ; 
conf.setMapperClass (ChainMapper.class); 
conf.setCombinerClass (LongSumReducer.class); 
conf.setReducerClass(LongSumReducer.class); 


FileInputFormat.setInputPaths (conf,args[0]) ; 
FileOutputFormat.setOutputPath(conf, new Path(args[1])) ; 


JobClient.runJob(conf); 
} 
{ 
(3) 编译 上 述 两 个 文件 。 
$ javac UFORecordValidationMapper.java UFOLocation.java 
(4) 将 上 述 两 个 类 文件 打包 为 ufo.jar 文 件 并 提交 作业 至 Hadoop。 
$ Hadoop jar ufo.jar UFOLocation ufo.tsv output 


(5) 将 输出 文件 拷贝 至 本 地 文件 系统 并 检查 它 。 


$ Hadoop fs -get output/part-00000 locations.txt 
$ more locations.txt 
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原理 分 析 
上 述 代码 实现 了 很 多 功能 ， 让 我 们 一 段 一 段 地 进行 分 析 。 


第 一 个 mapper 是 一 个 简单 的 验证 mapper。 该 类 与 标准 MapReduce API 的 接口 相同 ，map 返 回 
了 验证 的 结果 。 我 们 将 验证 方法 分 割 为 单独 的 方法 以 突出 mapper 的 功能 , 但 是 这 些 校 验 可 以 很 容 
易 地 在 map 主 方法 中 实现 。 为 了 简单 起 见 ， 我 们 坚持 以 前 的 验证 策略 ， 检 查 字 段 数 并 丢弃 那些 少 
于 6 个 字段 的 记录 。 


请 注意 ，chainMapper 类 不 幸 地 成 为 最 后 迁移 到 context 对 象 API 的 组 件 之 一 ， 截 至 Hadoop 
1.0， 只 能 使 用 旧 的 API。ChainMapper 仍 是 一 个 有 效 的 概念 和 有 用 的 工具 , 但 直到 Hadoop 2.0, 它 
才 会 将 被 迁移 到 org .apache.hadoop.mapreduce.1ipb.chain 包 ,所 以 目前 仍 需 使 用 其 较 老 的 
方法 。 

另 一 个 文件 实现 了 另 一 个 mapper, 并 在 主 方法 中 包含 了 一 个 升级 后 的 驱动 。 该 mapper 在 UFO 
目击 事件 报告 的 地 点 字段 寻找 双 字 母 序 列 。 手 工 检查 数据 发 现 ,很 明显 大 部 分 地 点 字段 的 值 是 “ 城 
市 ， 州 ”的 形式 ， 在 这 里 ， 标 准 的 双 字 符 缩 写 表示 UFO 目 击 事件 发 生 的 州 名 。 


然而 ,， 有些 记 录 加 入 了 后 括号 、 句 号 或 其 他 标点 符号 。 另 一 些 记 录 根 本 就 不 是 这 种 格式 。 对 
我 们 而 言 ， 我 们 很 乐意 抛弃 那些 记录 ,并 专心 处 理 那些 我 们 比较 看 重 的 、 以 双 字 符 的 州 名 缩写 结 
尾 的 记录 。 


map 方 法 使 用 另 一 个 正则 表达 式 从 地 点 字段 中 提取 州 名 缩写 ， 并 输出 其 大 写 形式 和 计数 结果 。 


本 作业 的 驱动 程序 发 生 的 变化 最 大 。 之 前 的 驱动 配置 中 仅 包 含 一 个 map 类 ， 而 本 作业 的 驱动 
配置 要 多 次 调用 ChainMapper 类 o 


在 驱动 中 多 次 调用 chainMapper 类 的 一 般 模 式 是 ， 为 每 个 mapper 新 建 一 个 配置 对 象 ， 然 后 
将 mapper 添 加 到 chainMapper 类 ， 同 时 指定 输入 和 输出 位 置 ， 并 引用 整个 作业 的 配置 对 象 。 


请 注意 ， 上 述 两 个 mapper 的 参数 略 有 不 同 。 它们 都 输入 Longwritable 类 型 的 键 及 Text 类 
型 的 值 。 区 别 在 于 输出 的 数据 类 型 : UFORecordvalidationMapper 输 出 LongWritable 类 型 的 
键 及 Text 类 型 的 值 , 而 UFOLocationMapper 则 相反 , 输出 Text 类 型 的 键 及 LongWritable 类 型 


的 值 。 


重要 的 是 ， 要 保证 mapper 链 条 末端 的 UFOLocationMapper 的 输入 与 reduce 类 ( LongSum- 
Reducer ) 的 输入 类 型 相 匹 配 。 在 使 用 chainMapper 类 时 ,只 要 符合 下 列 条 件 , 链条 中 的 mapper 
可 以 有 不 同 的 输入 和 输出 : 


口 除 最 后 一 个 mapper 外 ， 链 条 中 每 个 map 的 输出 与 下 一 个 mapper 的 输入 相 匹 配 ; 
口 对 最 后 一 个 mapper 而 言 ， 其 输出 与 reducer 输 入 相 匹 配 。 
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我 们 编译 这 些 类 并 将 其 打包 到 同一 个 jar 文 件 。 这 是 我 们 第 一 次 从 多 个 Java 源 文件 获得 捆绑 输 
出 。 正 如 所 料 ， 这 没什么 神奇 的 。jar 文 件 、 路 径 以 及 类 名 的 常用 规则 在 这 里 同样 适用 。 因 为 在 这 
个 例子 中 ， 所 有 类 都 在 同一 个 jar 包 中 ， 不 必 担 心 驱动 类 文件 的 引入 。 


随后 ， 我 们 运行 MapReduce 作 业 并 检查 和 输出， 结果 与 预期 有 些 不 同 。 








一 展 身手 


使 用 Java API 和 前 面 的 ChainMapper 例 子 来 重新 实现 之 前 用 Ruby 编 写 的 mapper， 该 mapper 
输出 不 同 UFO 形 状 出 现 的 频率 与 其 持续 时 间 。 





1. 缩写 太 多 

前 一 节 作 业 的 输出 结果 如 下 所 示 。 
AB 286 

AD 6 

AE 7 

AI 6 

AK 234 

AL 548 

AM 22 

AN 161 


该 文件 有 186 个 不 同 的 双 字符 条 目 。 简 单 地 说 , 从 地 点 字段 提取 双 字 符 的 方法 并 非 完全 可 行 。 
在 人 工分 析 源 文件 之 后 ， 许 多 数据 问题 浮 出 水 面 。 

口 州 名 的 大 写 缩写 不 一 致 。 

口 大 量 的 目击 事件 并 非 发 生 在 美国 ， 尽 管 它们 可 能 遵守 类 似 ( 城市 ， 地 区 ) 的 格式 , 但 是 
它们 的 缩写 并 不 在 我 们 预计 的 50 个 地 区 缩写 之 内 。 

O 有些 字段 根本 不 遵守 (城市 ， 地 区 ) 这 样 的 规则 ， 但 仍 会 被 正则 表达 式 采 集 到 。 

我 们 需要 对 结果 进行 过 滤 , 最 好 是 将 美国 记录 标准 化 为 正确 的 州 名 输出 , 并 将 其 余数 据 划分 
为 一 个 范围 更 宽泛 的 大 类 。 

为 了 执行 这 个 任务 ,需要 在 mapper 中 添加 一 些 内 容 ， 让 它 明 白 什 么 是 有 效 的 美国 州 名 缩写 。 
当然 , 我 们 可 以 将 其 硬 编码 到 mapper 中 , 但 这 似乎 不 是 正确 的 做 法 。 虽然 现在 我 们 计划 将 所 有 非 
美国 的 目击 事件 视 为 一 类 , 但 我 们 今后 还 可 能 对 该 类 进行 扩展 ， 比 如 按 国家 进行 划分 。 如 果 将 州 
名 缩写 人 硬 编码 到 mapper， 那 就 需要 每 次 重新 编译 我 们 的 mapper。 

2. 使 用 分 布 式 缓存 


为 了 使 作业 的 所 有 任务 共享 引用 数据 ，Hadoop 为 我 们 提供 了 一 种 可 供 选 择 的 机 制 一 一 分 布 
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式 缓存 。 它 可 以 把 map 或 reduce 任 务 要 用 的 通用 只 读 文 件 在 所 有 节点 之 间 共 享 。 这 些 文件 可 以 是 
像 本 例 中 的 文本 数据 ， 也 可 以 是 其 他 jar 文 件 、 二 进 制 数据 或 一 些 归档 文件 等 ， 任 何 文件 都 可 以 。 


要 被 共享 的 文件 放置 在 HDFS , 人 在 作业 执行 前 , Hadoop 
的 每 个 节点 会 将 文件 复制 到 本 地 文件 系统 ， 这 意味 着 每 个 任务 对 文件 都 具有 本 地 访问 权限 。 


另 一 种 方法 是 将 需要 的 文件 捆绑 编译 成 作业 jar， 然后 提交 给 Hadoop。 将 数据 打包 到 jar 文 件 
使 数据 很 难 在 作业 间 共 享 ， 而 且 如 果 数 据 发 生变 化 ， 还 需要 重新 编译 jar 文 件 。 
































4.9 实践 环节 : 使 用 Distributed Cache 改进 地 点 输出 


我 们 现在 使 用 Distributed Cache 在 集群 内 部 共享 美国 州 名 及 其 缩写 列表 。 





(1) 在 本 地 文件 系统 创建 名 为 states .txt 的 数据 文件 。 文件 中 的 每 行内 容 都 是 一 个 以 制 表 符 
分 隔 的 州 名 缩写 及 全 称 。 读 者 可 以 从 本 书 主页 获取 该 文件 。 该 文件 的 开头 部 分 如 下 所 示 。 


AL Alabama 
AK Alaska 

AZ Arizona 
AR Arkansas 
CA California 


(2) 将 states .txt 文 件 放 到 HDFS 上 。 
$ hadoop fs -put states.txt states.txt 


(3) 将 之 前 的 UFOLocation.java 拷 贝 为 UFOLocation2.java 文 件 ， 并 通过 添加 下 列 “ 引 用 ” 
声明 修改 该 文件 。 
import java.io.* ; 
import java.net.* ; 
import java.util.* ; 


import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.filecache.DistributedCache ; 


(4) 将 下 列 内 容 添 加 到 驱动 程序 的 主 方法 中 ， 放 在 设置 作业 名 的 代码 之 后 。 
DistributedCache.addCacheFile(new URI ("/user/hadoop/states.txt"), conf) ; 
(5) 将 map 类 替换 为 以 下 内 容 。 
public static class MapClass extends MapReduceBase 


implements Mapper«LongWritable, Text, Text, LongWritable» 
{ 


private final static LongWritable one = new 
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LongWritable(1); 
private static Pattern locationPattern - 

Pattern.compile( "[a-zA-Z](2)[^a-zA-Z]*$") 
private Map«String, String» stateNames 


h 


@Override 


public void configure( JobConf job) 


try 


Path[] cacheFiles = DistributedCache. 
getLocalCacheFiles(job) ; 
setupStateMap( cacheFiles[0].toString()) 
) catch (IOException e) 


L 


{ 
System.err.println("Error reading state file.") 
System.exit(1) ; 


t 


private void setupStateMap (String filename) 
throws IOException 
{ 
Map<String, String» states = new HashMap<String, 
String> (J; 
BufferedReader reader = new BufferedReader ( new 
FileReader(filename)) ; 
String line - reader.readLine() ; 
while (line !- null) 
{ 
String[] split = line.split("Nt") 3 
states.put(split[0], split[1]) 
line = reader.readLine() ; 


L 


StateNames - states ; 


public void map(LongWritable key, Text value, 
OutputCollector«Text, LongWritable» output, 
Reporter reporter) throws IOException 


String line - value.toString(); 
String[] fields = line.split("Nt") 
String location = fields[2].trim() 
if (location.length() >= 2) 

{ 


L 


L 


Matcher matcher - locationPattern.matcher (location) 


if (matcher.find() ) 


f 
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int start = matcher.start() ; 
String state = location.substring(start, start-*2) 


output.collect (newText (lookupState (state. 
toUpperCase())), one); 
} 
j 
} 


private String lookupState( String state) 
{ 


String fullName = stateNames.get (state) ; 


return fullName == null? "Other": fullName ; 
} 
} 


(6) 编译 这 些 类 并 将 作业 提交 至 Hadoop。 随 后 获取 结果 文件 。 


原理 分 析 


首先 , 我 们 创建 了 一 个 本 作业 要 用 到 的 查询 文件 , 并 将 其 放 在 HDFS 上 。 要 添加 到 Distributed 
Cache 的 文件 必须 首先 拷贝 到 HDFS 文 件 系统 。 


在 创建 新 的 作业 文件 之 后 , 我们 添加 了 必需 的 类 引用 。 然 后 , 修改 驱动 类 ,将 我 们 想 在 每 个 
节点 上 访问 的 文件 添加 到 Distributed Cache。 文 件 名 可 以 用 多 种 方式 指定 ,但 最 简单 的 方法 是 使 
用 该 文件 在 HDFS 上 的 绝对 路 径 。 


我 们 也 对 mapper 类 进行 了 大 量 修改 。 其 中 ， 新 增 了 一 个 重 写 的 configure 方 法 ,该 方法 使 
用 map 方 法 将 州 名 缩写 与 全 称 关联 起 来 。 


configure 方 法 在 任务 启动 时 被 调用 ， 其 默认 实现 不 执行 任何 操作 。 在 我 们 重 写 的 版 本 中 ， 
该 方法 获取 已 添加 到 Distributed Cache 中 的 文件 阵列 。 因 为 我 们 知道 缓存 中 只 有 一 个 文件 ， 所 以 
就 直接 取得 数组 中 第 一 项 , 并 将 其 传 给 utility 方 法 , 该 方法 解析 文件 并 使 用 文件 内 容 填充 州 名 
缩写 查询 map。 请 注意 ,一 旦 获得 了 文件 引用 ,我 们 就 可 以 使 用 标准 Java IO 类 来 访问 该 文件 了 ， 
毕竟 它 只 是 一 个 本 地 文件 系统 的 文件 。 


我 们 添加 了 另 一 种 方法 来 执行 查询 , 该 方法 的 参数 是 从 地 点 字段 获取 的 字符 串 , 如 果 有 匹配 
果 , 它 返回 州 名 的 全 称 , 否则 返回 字符 串 other。 该 方法 在 outputcollector 类 对 map 方 法 的 


FH 


结果 进行 写 操作 之 前 调用 。 
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本 作业 的 结果 大 致 如 下 。 


Alabama 548 
Alaska 234 
Arizona 2097 
Arkansas 534 
California 7679 
Other 

这 段 代 码 运行 

于 6 个 字段 的 所 有 记录 。8 


4531... 


得 很 好 , 但 我 们 在 此 期 间 却 丢失 了 一 些 信息 。 在 验证 mapper 中 , 我 们 丢掉 了 少 




















有 然 我 们 不 在 意 丢 弃 个 别 记录 ， 但 我 们 可 能 会 关心 被 丢弃 的 记录 数量 是 




















不 是 很 多 。 目前 , 确定 被 丢弃 记录 数量 的 唯一 方法 是 ， 累计 包含 有 效 地 点 的 记录 数 并 从 文件 记录 
s 试 将 这 些 数据 传 入 作业 的 其 余部 分 ， 以 一 个 特殊 的 reduce 键 来 收 
集 该 值 但 这 个 想法 似乎 行 不 通 。 和 幸运 的 是 ， 我 们 有 一 个 更 好 的 办 法 。 


总 数 中 减 去 该 值 。 我 们 也 可 以 尝 





4.10 计数 器 、 状态 不 
每 个 MapReduce 作 业 结 尾 都 有 一 些 与 计数 器 相关 的 输出 ， 比 如 下 面 这 些 : 


12/02/12 06: 
12/02/12 06: 
12/02/12 06: 
12/02/12 06: 
12/02/12 06: 
12/02/12 06: 
12/02/12 06: 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


其 他 输出 


mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 


JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 





Counters: 22 
Job Counters 
Launched reduce tasks-1 
Launched map tasks-18 
Data-local map tasks-18 
SkippingTaskCounters 
MapProcessedRecords-61393 





你 也 可 以 添加 自 定义 计数 器 ， 从 所 有 任务 中 聚合 信息 ， 并 在 最 终 输 出 和 MapReduce web UI 





中 得 到 统计 结果 。 


4.11 实践 环节 : 创建 计数 器 、 任 务 状态 和 写 入 日 志 


我 们 将 修改 UFORecordVvalidationMapper， 


作业 信息 AM 55 X648 36, 


用 它 统 计 被 略 去 的 记录 数 ， 并 标记 一 些 记录 


(1) 创建 UFOCountingRecordValidationMapper.java 文 件 ， 输 入 以 下 内 容 。 


import java.io.IOException; 


import org.apache.hadoop.io.* ; 
import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 
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public class UFOCountingRecordValidationMapper extends 








MapReduceBase 
implements Mapper«LongWritable, Text, LongWritable, Text» 
{ 
public enum LineCounters 
{ 
BAD LINES, 
TOO MANY TABS, 
TOO FEW TABS 
} 3 


public void map(LongWritable key, Text value, 
OutputCollector«LongWritable, Text» output, 
Reporter reporter) throws IOException 





String line - value.toString(); 





if (validate(line, reporter)) 
Output.collect(key, value); 


} 
private boolean validate(String str, Reporter reporter) 
{ 
String[] parts = str.split("Nt") ; 
if (parts.length !- 6) 
{ 


if (parts.length < 6) 


reporter.incrCounter(LineCounters.TOO FEW TABS, 1) 
} 
else 


{ 


£ 


reporter.incrCounter(LineCounters.TOO MANY TABS, 


) 


reporter.incrCounter(LineCounters.BAD LINES, 1) 


$ 


if ( (reporter .getCounter ( 
LineCounters.BAD LINES).getCounter()$10) 


== 0) 
{ 
reporter.setStatus("Got 10 bad lines.") ; 
System.err.println("Read another 10 bad lines.") ; 
J 
return false ; 
} 
return true ; 
j 
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(2) 复制 UFOLocation2.java， 另 存 为 UFOLocation3 .java， 使 用 下 列 新 mapper 代 替 
UFORecordValidationMapper, 


JobConf mapconfi1 = new JobConf(false) 
ChainMapper.addMapper( conf, 
UFOCountingRecordValidationMapper.class, 
LongWritable.class, Text.class, LongWritable.class, 


t 


Text.class, 
true, mapconf1) ; 


G 


— 


编译 文件 ， 打 包 为 jar 并 提交 作业 至 Hadoop。 


12/02/12 06:28:51 INFO mapred.JobClient: Counters: 22 
12/02/12 06:28:51 INFO mapred.JobClient: UFOCountingRecordValida 
tionMapper$LineCounters 


12/02/12 06:28:51 INFO mapred.JobClient: TOO MANY TABS-324 
12/02/12 06:28:51 INFO mapred.JobClient: BAD LINES-326 
12/02/12 06:28:51 INFO mapred.JobClient: TOO FEW TABS-2 
12/02/12 06:28:51 INFO mapred.JobClient: Job Counters 


(4) 使 用 浏览 器 打开 MapReduce web UI ( RUHIL T , MapReduce web UI 是 在 JobTracker 主 机 
455003035 € ), i&ifCompleted Jobs 列 表 底 部 的 作业 ， 会 看 到 类 似 下 面 的 屏幕 截图 。 


{Æ Hadoop job_201202111619_0023 on head - Windows Internet Explorer 

















































[-151x| 
GO- [e http:;/10.0.0.100:50030; ils. jsp?jobid-iob 201 6 =30 BB xgEP ae se ar P| 
File Edit view Favorites Tools Help 
E zos dt wl Ore Li EL 
T Favorites Hi| -| ie Hadoop job 2012021115... x | Enew Tæ | | 
Hadoop job 201202111619 0023 on head 
User: hadoop 
Job Name: UFOLocation 
Job File: hdfs var/hadoop/mapre stem/ob 201202111619 0023/job xml 
Job Setup: 
Status: Succeeded 
Started at: Sun Feb 12 15:00:35 PST 2012 
Finished at: Sun Feb 12 15:01:55 PST 2012 
Finished in: 1mins, 19sec 
Job Cleanup: S ;sful 
n ü i r 1 | FailediKilled 
Kind |% Complete | Num Tasks | Pending Running | Complete | Killed | Task Atem ts 
map | | 100.00% 48 | 0 0 m| o] 0/2 
reduce 100.0096 | 1 | 0 0 1 0 | 010 
Counter Map [Reduce | Total 
TOO MANY TABS 324 0| 324 
UFOCountingRecordValidationMapper$LineCounters | TOO FEW TABS 2 0 2 
BAD LINES 326 0| 326 
Launched reduce tasks 0 0 1 
-— — E zi 








LT TT TT gne Far [Rio - 7 
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(5) 点 击 map 任 务 的 链接 ， 你 应 当 看 到 一 个 概述 页 面 ， 如 下 图 所 示 。 


f$ Hadoop map task list for job 201202111619 0023 on head - Windows Internet Explorer [-s[x] 

3 CJ » [E ho:;/10.0.0.100:50030jobtasks.isp?jobid. mE 

Ele Edt View Favorites Tools Help 

x p- Esan 9 9c [E E89 muy Qe rome 加 SUE 
EX eb us es S3 


xig Favorites E| z | Æ Hadoop map testor. x | KE new Tab | | 











job. 201202111619 00238type 





















































dadoop map task list for job 201202111619 0023 on head 
rompleted Tasks 
Task Complete Status E Sd Errors 
! 12Feb- | 1 
task 201202111619 0023 m 000000 | 100.00% | Got 10 bad lines 2012 15:00.49 
3 15:00:40 | ,~ 
(9sec) 
12.Feb- | 10i eb- 
ask 201202111619 0023 m 000001 | 100.00% | Got 10 bad lines 2012 — 150049 
15:00:40 | (gsecj 
. 12Feb. Jo peh 
task 201202111619 0023 m 000002 | 100.00%  |Got40 bad lines 2012 15:01:26 
— 15:00:41 | (44sed 
12.Feb. | 12-Feb- 
" "DP , P |2012 
[ask 201202111619 0023 m 000003 | 100.00% | hdfs://head:9000/user/hadoop/ufo.tsv: 12582912+4194304 | 2012 15:04:26 
- 15:00:41 
(44sec) 
" rM jf 
Done [E E E T T memet Za v [R10% + 


f$ Counters for task_201202111619_0023_m_000000 - Windows Internet Explorer [- [x] 
e» v [e http://10.0.0.100:50030/t job. 201202111619 D023etipid-task. 201202111619 0023 re] S || || X |] ave 
Ele Edt View Favorites Tools Help 
— t | 
p- vE sen 9 c Ej = A e @ mse fir comes [o + 


x Favorites al ~| @ Counters for task 20120... x | Æ New Tab | | 


Counters for task 201202111619 0023 m 000000 


























UFOCountingRecordValidationMapperSLineCounters 


TOO MANY TABS 19 

BAD LINES 19 
SkippingTaskCounters 

MapProcessedRecords 4411 
FileSystemCounters 

HDFS BYTES READ 4,198,400 

FILE BYTES WRITTEN 1,065 


Map-Reduce Framework 





Combine output records 52 
Map input records 4411 
Spilled Records 52 
Map output bytes 76,359 
Map input bytes 4,195,420 
Combine input records 4,386 
Map output records 4,386 par! 





Go back to the job 
Go back to JobTracker sl 
Done [ETT TT MS nene [/a-[*109 - 7 
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(7) 3& 


反 回 任务 列表 并 点 击 任务 ID ， 获 得 任务 综述 ， 结 果 与 下 图 类 似 。 


Æ Hadoop Task Details - Windows Internet Explorer e 
ATA 
3 |e) http://10.0.0.100:50030/taskdetails.jsi 


Ele gdt Mew Favortes Toos Heb 
p- w |E] search ~o sc E EMO! 


xy Favorites 








图 vesc fr cames 24 NI 














35|7| i Hadoop Task Details X | i£ New Tab 















































Job job 201202111619 0023 
All Task Attempts 
| Start Finish Task 1 
Task Attempts Machine Status Progress Time Time Errors Logs [Costes Acti 
12-Feb- E 
idefault «, |A2Feb- 2012 
attempt 201202111619 0023 m 000000 0 44 | SUCCEEDED | 100.0076 |2012 . 12 
e1 ————aà 15:00:46 
15:00:40 
(6sec) 
Input Split Locations 
Idefault-rack/node3 
|/default rackinode1 
jdefaultrackinode4 
Hadoop, 2012 sg 
is] —»————————————————— r 
Done [EE Entenet Fa- [Rio - 


(8) 可 在 Task Logs 列 选择 想 要 显示 的 数据 量 。 点 击 All 链 接 ， 结 果 如 下 图 所 示 。 






indows Internet Explorer BME E 








/10,0.0.101:50c 





Oft empt_201202111619_0023_m_000000_0&all=true 








Ele Edt view Favorites Tools Hep 
DE Scarch ~ |E search +- sc F3 ERO 此 QD mse yc cones (2j 只 | + 


di Favorites e| -| {Æ Task Logs: attempt_201,., x | {Æ New Tab | | 


Task Logs: 'attempt 201202111619 0023 m 000000 0' 








stdout logs 


stderr logs 


Got 10 bad lines. 








syslog logs 


2012-02-12 15:00:42,342 INFO org.apache.hadoop.metrics.jvm.JvmMetrics: Initializing JVM Metrics with processName-MAP, sessio 











2012-02-12 1 .apache.hadoop.mapred.MapTask: numReduceTasks: 1 

2012-02-12 1 .apache.hadoop.mapred.MapTask: io.sort.mb - 100 

2012-02-12 1 .apache.hadoop.mapred.MapTask: data buffer - 79691776/99614720 

2012-02-12 1 .apache.hadoop.mapred.MapTask: record buffer = 262144/327680 

2012-02-12 1 .apache.hadoop.mapred.MapTask: Starting flush of map output 

2012-02-12 1 .apache.hadoop.mapred.MapTask: Finished spill 0 

2012-02-12 1 .apache.hadoop.mapred.TaskRunner: Task:attempt 201202111619 0023 m O0D000 D is done. And is 
2012-02-12 1 .apache.hadoop.mapred.TaskRunner: Task 'attempt 201202111619 0023 m 000000 0' done. 

S ———————r——Á—[ ài 





Done LETT i Erene Fas [Roo e 
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(9) 现在 ,登录 到 一 个 任务 节点 并 浏览 hadoop/1logs/userlogs 路 径 下 的 文件 。 每 个 任务 都 
有 一 个 专用 目录 ， 该 目录 下 有 若干 文件 。 我 们 要 查看 的 是 stderr。 


原理 分 析 


为 了 添加 新 计数 器 ， 我 们 需要 做 的 第 一 件 事 是 创建 一 个 承载 它们 的 标准 Java 枚 举 。 本 例 中 ， 
我 们 创建 了 一 个 LineCounters，Hadoop 将 其 视 为 计数 器 组 。 在 LineCounters 中 ， 有 3 个 计数 器 分 别 
对 不 符合 数据 格式 的 总 行 数 ， 以 及 更 细 力 度 地 对 少 于 或 多 于 6 个 字段 的 行 的 数量 进行 统计 。 这 就 
是 创建 新 计数 器 集合 所 需 做 的 所 有 事情 定义 枚 举 类 型 。 计数 开始 后 , Hadoop 框 架 会 自动 维护 
计数 器 的 值 。 

为 了 将 中 标 数据 加 入 到 计数 器 ， 我 们 通过 Reportezr 对 象 增 加 计数 器 的 值 。 本 例 中 ， 每 次 我 
们 遇 到 错误 数据 行 ， 少 于 6 个 字段 的 行 或 者 多 于 6 个 字段 的 行 时 ， 分 别 将 相应 计数 器 的 值 加 1。 

我 们 也 获取 BAD_LINE 计 数 器 的 值 ， 假 如 它 是 10 的 倍数 ， 执 行 下 列 任务 : 
口 设置 任务 状态 以 反映 实际 情况 ; 
a 使 用 标准 的 Java System.erz.println 机 制 向 stqaerr 写 人 类 似 信息 。 

随后 ， 我 们 转向 MapReduce UI， 验 证 是 否 可 在 作业 概览 中 看 到 计数 器 总 数 ， 是 否 可 在 任务 
列表 中 看 到 带 有 自 定 义 状态 消息 的 所 有 任务 。 

之 后 ， 我 们 浏览 网 页 用 户 接口 ， 查 看 个 别 作业 的 计数 器 。 对 于 我 们 在 详细 页 面 看 到 的 任务 ， 
可 以 点 击 查看 任务 日 志文 件 。 

查看 其 中 一 个 节点 ， 我 们 发 现 ，Hadoop 为 每 个 任务 留存 了 日 志 ， 存 放 在 文件 系统 的 
{HADOOP_HOME} /logs/userlogs 目 录 下 。 在 每 个 任务 的 子 目录 下 ， 有 标准 流 和 普通 任务 日 志 
的 文件 。 如 你 所 见 , 忙碌 节点 留 下 了 大 量 的 任务 日 志 目 录 ， 从 中 找 出 我 们 感 兴 趣 的 任务 目录 不 是 
一 件 容易 的 事 。 事 实证 明 ， 使 用 网 页 接口 查阅 此 类 数据 更 为 高 效 。 
















































































M 假如 你 用 的 是 Hadoop context ^T API, 3t-£- f Context . getCounter () . 
increment () 方 法 访问 计数 器 。 
言 息 太 多 


虽然 不 必 再 考虑 如 何 获取 作业 状态 和 其 他 信息 ,但 似乎 突然 间 出 现 了 太 多 令 人 困惑 的 信息 可 
供 选择 。 问 题 的 实质 是 ,在 全 分 布 式 模式 下 ， 数 据 散 布 在 各 个 节点 ， 因 此 我 们 无 法 采用 传统 的 单 
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击 调试 方法 调试 MapReduce 作 业 。Ruby Streaming 任 务 可 轻易 在 命令 行 下 运行 ， 命 令 行 的 输出 为 
调试 问题 提供 了 帮助 ; 而 使 用 Java 语 言 实现 的 任务 却 无 法 模拟 该 行为 。 因 此 ， 开 发 者 需要 特别 考 
虑 ,调试 程序 可 能 会 用 到 哪些 作业 运行 时 信息 。 这 应 当 包 括 一 般 性 的 作业 运行 状态 ,也 应 当 包 括 
可 以 为 进一步 调查 问题 提供 帮助 的 其 他 信息 。 


计数 器、 任务 状态 消息 以 及 老式 Java 日 志 可 以 协同 工作 。 假 如 你 对 某 种 状况 比较 关注 , 将 其 
设 为 计数 需 , 每 次 发 生 这 种 状况 时 计数 器 都 会 记录 。 同时 在 发 生 这 种 状况 时 , 设置 任务 状态 消息 。 
如 果 任 务 运行 过 程 中 产生 了 一 些 特殊 数据 ， 将 其 写 入 到 stderr。 由 于 很 容易 看 到 计数 器 的 值 ， 
你 可 以 在 作业 完成 之 后 迅速 得 知 你 所 关注 的 情况 是 否 发 生 过 。 而 且 , 在 网 页 用 户 界面 中 , 一 眼 就 
能 看 出 你 所 关注 的 情况 发 生 在 哪个 任务 运行 过 程 中 。 并且, 你 可 以 在 网 页 用 户 界面 中 点 击 查 看 该 
任务 的 详细 日 志 。 

HK, 你 不 需要 等 到 整个 作业 完成 后 才 开 始 调 查 。 随 着 作业 的 执行 , 计数 器 和 任务 状态 信息 
会 在 网 页 用 户 界面 实时 更 新 , 所 以 只 要 计数 咒 或 任务 状态 信息 提醒 你 出 现 了 关注 的 情况 ,你 就 可 
以 着 手 进行 调查 .尤其 是 一 些 错误 可 能 会 导致 已 运行 很 长 时 间 的 作业 中 止 时 , 这 个 技巧 特别 有 用 。 



























































4.12 ”小结 


本 章 介 绍 了 如 何 开 发 MapReduce 作 业 ， 重 点 讲述 了 可 能 经 常会 碰 到 的 一 些 问题 及 其 解决 方 
法 。 特 别 是 , 我 们 学 习 了 如 何 使 用 Hadoop Streaming 脚 本 语言 编写 map 和 reduce 任 务 ， 以 及 如 何 有 
效 使 用 Streaming 技 术 进 行 早期 的 作业 原型 设计 和 最 初 的 数据 分 析 。 


我 们 同时 也 了 解 到 , 使 用 脚本 语言 编写 任务 有 利于 在 命令 行 下 直接 测试 和 调试 代码 。 我 们 还 
学 习 了 Java API， 使 用 chainMappezr 类 可 以 把 复杂 的 map 任 务 分 解 成 一 系列 较 小 且 更 有 针对 性 的 
map 任 务 。 


紧 接着 , 我 们 学 习 了 Distributed Cache 如 何在 所 有 节点 间 共 享 数据 。 它 将 数据 文件 从 HDFS 找 
贝 到 每 个 节点 的 本 地 文件 系统 ， 使 我 们 可 以 在 本 地 访问 这 些 数据 。 我 们 还 学 到 ， 通 过 定义 Java 枚 
举 可 以 为 计数 需 组 添加 计数 需 并 利用 Hadoop 框 架 自 动 维护 计数 需 值 。 此 外 , 我 们 也 了 解 了 如 何 组 
合 运用 计数 器 、 任 务 状态 信息 和 debug 日 志 进 行 高 效 的 作业 分 析 。 


在 开发 MapReduce 作 业 的 过 程 中 ,你 会 经 常 碰 到 大 部 分 前 述 技术 和 方法 。 下 一 章 , 我 们 将 探 
索 一 系列 更 高 级 的 且 不 会 经 常 碰 到 的 技术 ， 但 它们 却 十 分 重要 。 




































































第 5 章 


高 级 MapReduce 技 术 








既然 我 们 已 经 学 习 了 一 些 MapReduce 基 础 知识 及 其 使 用 方法 , 下面 将 研究 更 多 MapReduce 相 
关 技 术 和 概念 。 
本 章 包 括 以 下 内 容 : 


OQ 对 数据 执行 联结 操作 ; 
口 用 MapReduce 实 现 图 算法 ; 
口 如 何 用 与 语言 无 关 的 方式 表示 复杂 数据 类 型 。 


同时 , 在 研究 学 习 案 例 的 过 程 中 , 我 们 将 强调 一 些 实用 的 技巧 、 穿 门 和 某 些 领域 的 最 佳 实践 
等 内 容 。 





51 初级 、 高 级 还 是 中 级 


本 章 标题 中 出 现 的 “高 级 ”一 词 有 点 危险 ,因为 复杂 性 是 一 个 主观 概念 。 因 此 ,我 们 需要 界 
定 清楚 “高 级 ”一 词 涵盖 的 内 容 。 我 们 从 不 认为 本 章 要 讲 的 内 容 是 需要 花费 多 年 时 间 才 能 领悟 到 
的 大 智慧 。 反 之 ， 我 们 也 不 认为 本 章 讨论 的 一 些 技 术 和 问题 适合 Hadoop 新 手 。 

因此 ， 本 章 使 用 “高 级 ”一 词 指 代 最 初 几 天 或 几 周 不 曾 学 到 或 遇 到 的 技术 ， 或 者 即便 遇 到 过 
却 没 有 完全 理解 的 内 容 。 这 些 技术 不 仅 提 供 了 特定 问题 的 专门 解决 方案 ， 也 强调 了 如 何 使 用 标准 
Hadoop 与 相关 API 解 决 明 显 不 适用 于 MapReduce 处 理 模型 的 问题 。 之后, 我 们 也 会 提 到 一 些 蔡 代 方 
法 ,虽然 本 章 不 会 具体 学 习 如 何 实现 这 些 方法 , 但 它们 可 能 有 助 于 读者 更 深入 地 研究 MapReduce。 


我 们 要 学 习 的 第 一 个 案例 就 属于 后 一 种 情况 : 在 MapReduce 作 业 中 执行 各 种 联结 操作 。 

















5.2 多 数据 源 联结 
没有 问题 会 使 用 一 个 单独 的 数据 集 。 在 许多 情况 下 ， 有 一 些 简 单 的 方法 可 以 避免 在 
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MapReduce 框 架 中 处 理 多 个 单独 却 又 相关 的 数据 集 。 

当然 ， 本 童 提 到 的 联结 类 似 于 关系 数据 库 中 的 概念 。 在 关系 数据 库 中 ， 将 数据 分 成 多 个 表 ， 
然后 使 用 SQL 联结 语句 从 多 个 数据 源 获取 数据 是 很 自然 的 事 。 一 个 典型 例子 是 ， 主 表 仅 包含 特定 
资料 的 唯一 了 D， 可 以 使 用 与 其 他 表 的 联结 操作 获取 该 ID 指 代 的 数据 。 

















5.2.1 不 适合 执行 联结 操作 的 情况 


在 MapReduce 中 是 可 以 实现 联结 操作 的 。 实 际 上 ， 稍 后 我 们 会 看 到 ， 问 题 并 不 在 于 是 否 具备 
实现 该 功能 的 能 力 ， 而 在 于 从 众多 潜在 策略 中 选择 哪 一 个 。 


然而 ,，MapReduce 联 结 通常 较 难 编写 ,而且 效率 低下 。 无 论 你 用 了 多 长 时 间 Hadoop， 都 会 遇 
到 需要 进行 联结 操作 的 场景 。 不 过 ， 如 果 需 要 在 MapReduce 作 业 中 频繁 执行 联结 ， 你 可 能 就 要 问 
一 下 自己 ,数据 的 结构 性 是 不 是 很 强 以 及 是 不 是 比 预想 的 存在 更 多 内 在 关联 。 如 果 是 这 样 的 话 ， 
可 能 你 需要 考虑 使 用 Apache Hive ( 第 8 章 的 主要 话题 ) Apache Pig ( 在 第 8 章 会 简要 提 到 )。 二 
者 都 提供 了 基于 Hadoop 的 附加 层 , 允许 使 用 高 级 语言 进行 数据 处 理 操作 , 比如 Hive 使 用 的 就 是 一 
种 SQL 语言 的 变种 。 





















































5.2.2 map 端 联 结 与 reduce 端 联结 的 对 比 


在 Hadoop 中 ， 有 两 种 基本 方法 可 以 实现 数据 联结 。 我 们 根据 数据 联结 发 生 在 作业 执行 的 哪 
个 阶段 ， 将 它们 分 别 命名 为 map 端 联结 和 reduce 端 联结 。 无 论 哪 种 情况 ， 都 需要 汇集 多 个 数据 流 
并 通过 一 些 逻 辑 执行 数据 联结 。 这 两 种 方法 的 基本 区 别 在 于 ， 多 个 数据 流 整合 是 发 生 在 mapper 
PRAGA reducer PR Z 


顾名思义 ，map 端 联结 把 数据 流 读 入 mapper， 并 利用 编码 在 mapper 函 数 内 部 的 逻辑 执行 联结 
操作 。map 端 联结 的 巨大 优势 在 于 ， 通 过 在 mapper 中 执行 全 联结 ( 更 关键 的 是 减少 数据 量 )， 传 
输 给 reduce 阶 段 的 数据 量 大 幅 下 降 。map 端 联结 也 有 和 缺点: 要 么 得 确保 其 中 一 个 数据 源 的 数据 规 
模 很 小 ， 要 么 需要 按照 特定 规则 定义 作业 的 输入 。 通 常 ， 唯 一 的 方法 是 使 用 男 一 个 MapReduce 作 
业 对 数据 进行 预 处 理 ， 而 该 作业 的 唯一 目的 就 是 为 map 端 联结 准备 数据 。 

与 之 相反 , reduce 端 联结 不 在 map 阶 段 对 多 数据 流 执行 联结 操作 , 而 是 把 联结 操作 放 在 reduce 
阶段 进行 。 这 种 方法 的 潜在 缺陷 是 ， 所 有 数据 源 的 全 部 数据 都 经 过 shuffle 阶 段 传 人 reducer， 而 其 
中 大 部 分 数据 可 能 被 联结 操作 丢弃 。 对 大 数据 集 而 言 ， 这 将 是 一 个 明显 开销 。 

reduce 端 联结 的 主要 优点 是 简单 。 开 发 者 基本 上 可 以 决定 作业 结构 ， 而 且 通 常 为 相关 数据 集 
定义 reduce 端 联结 的 方法 是 很 简单 的 。 下 面 看 一 个 例子 。 
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5.2.3 ”匹配 账户 与 销售 信息 
很 多 公司 的 销售 记录 与 客户 信息 都 是 分 开 管理 的 。 当 然 , 二 者 之 间 存 在 某 种 关联 : 通常 销售 


记录 包含 客户 账户 的 唯一 JD， 而 客户 账户 则 与 某 些 销售 记录 相关 。 











在 Hadoop 中 ， 这 些 内 容 以 两 类 数据 文件 表示 : 一 类 文件 包含 用 户 人 D 记 录 和 销售 信息 ， 男 一 
类 文件 包含 每 个 客户 账户 的 全 部 数据 。 
最 常见 的 任务 就 是 使 用 这 些 数据 源 生成 报告 。 举 个 例子 , 我 们 想 了 解 销售 总 额 和 针对 每 个 客 
户 的 销售 额 , 但 我 们 更 愿意 看 到 销售 额 与 客户 姓名 的 对 应 关系 ， 而 非 匿名 的 ID 号 。 这 一 点 非常 重 
要 ， 当 客户 服务 代表 想 致电 最 活跃 的 顾客 ( 通过 分 析 销 售 记录 得 出 活路 客户 ) 时 ,他 想 要 的 是 客 


户 姓名 ， 不 是 数字 。 








5.3 ”实践 环节 : 使 用 Multiplelnputs 实现 reduce 端 联结 


我 们 可 以 通过 执行 reduce 端 联结 完成 上 节 提 到 的 客户 -销售 额 报 告 。 执 行 以 下 步骤 。 


(1) 把 下 列 以 tab 为 分 隔 符 的 内 容 保 存 为 sales.txt 文 件 。 


00135.992012-03-15 
00212.492004-07-02 
00413.422005-12-20 
003499.992010-12-20 
00178.952012-04-02 
00221.992006-11-30 
00293.452008-09-10 


0019.992012-05-17 


(2) 把 下 列 以 tab 为 分 隔 符 的 内 容 保 存 为 accounts .txt。 


001John AllenStandard2012-03-15 
002Abigail SmithPremium2004-07-13 
003April StevensStandard2010-12-20 
004Nasser HafezPremium2001-04-23 


(3) 把 上 述 两 个 数据 文件 拷贝 至 HDFS。 


$ hadoop fs -mkdir sales 

$ hadoop fs -put sales.txt sales/sales.txt 
$ hadoop fs -mkdir accounts 

$ hadoop fs -put accounts/accounts.txt 


(4) 把 以 下 代码 保存 为 ReduceJoin.java 文 件 。 


import java.io.* ; 
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import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.*; 
import org.apache.hadoop.mapreduce.lib.input.*; 


public class ReduceJoin 


{ 


public static class SalesRecordMapper 
extends Mapper«Object, Text, Text, Text» 
{ 


public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException 
{ 
String record = value.toString() ; 
String[] parts = record.split("\t") 


context.write(new Text(parts[0]), new 
Text("salesNt"*parts[1])) ; 
} 


public static class AccountRecordMapper 
extends Mapper«Object, Text, Text, Text» 
{ 
public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException 
{ 
String record = value.toString() ; 
String] ] parts = record.split("Nt") 


context.write(new Text(parts[0]), new 
Text("accountsNt"«parts[1])) ; 


} 


public static class ReduceJoinReducer 
extends Reducer«Text, Text, Text, Text» 
{ 
public void reduce (Text key, Iterable<Text> values, 
Context context) 
throws IOException, InterruptedException 


String name = "" 
double total = 0.0 ; 
int count = 0 ; 


for(Text t: values) 


t 
String parts[] = t.toString().split("Nt") ; 
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if (parts[0].equals("sales")) 


count-t-* ; 
total«- Float.parseFloat(parts[1]) ; 
} 
else if (parts[0] .equals ("accounts") ) 
{ 
name = parts[1] ; 
} 


String str = String.format("£$dNt$f", count, total) ; 
context.write(new Text(name), new Text(str)) ; 


) 


public static void main(String[] args) throws Exception 


Configuration conf - new Configuration(); 

Job job = new Job(conf, "Reduce join"); 

job.setJarByClass (ReduceJoin.class); 

job.setReducerClass (ReduceJoinReducer.class); 

job.setOutputKeyClass (Text.class); 

job.setOutputValueClass (Text.class); 
MultipleInputs.addInputPath(job, new Path(args[0]), 
TextInputFormat.class, SalesRecordMapper.class) ; 
MultipleInputs.addInputPath(job, new Path(args[11]), 
TextInputFormat.class, AccountRecordMapper.class) ; 

Path outputPath - new Path(args[2]); 

FileOutputFormat.setOutputPath(job, outputPath); 
outputPath.getFileSystem(conf).delete(outputPath); 


System.exit(job.waitForCompletion(true) ? 0 : 1); 
j 
(5) 编译 ReduceJoin.java 文 件 并 把 它 增 加 到 join.jar 文 件 中 。 


$ javac ReduceJoin.java 
$ jar -cvf join.jar *.class 


(6) 通过 执行 下 列 命令 行 运行 作业 。 
$ hadoop jar join.jarReduceJoin sales accounts outputs 
(7) 检查 结果 文件 。 


$ hadoop fs -cat /user/garry/outputs/part-r-00000 


John Allen 3 124.929998 
Abigail Smith 3 127.929996 
April Stevens 1 499.989990 


Nasser Hafez 1 13.420000 
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原理 分 析 


首先 , 我 们 创建 了 本 例 用 到 的 数据 文件 。 之 所 以 创建 了 两 个 小 数据 集 , 是 因为 这 样 更 易于 跟 
踪 输出 结果 。 我 们 定义 的 第 一 个 数据 集 是 账户 详情 ， 它 由 4 个 字段 组 成 。 
口 账户 ID 
口 客户 姓名 
口 账户 类 型 
口 开户 日 期 


接着 ， 我 们 创建 了 销售 记录 数据 集 ， 它 由 如 下 3 个 字段 组 成 。 


口 购买 者 账户 ID 

a 销售 额 

a 售 出 时 间 
当然 , 实际 的 账户 信息 和 销售 记录 的 字段 要 比 这 里 提 到 的 多 很 多 。 创建 了 这 些 文件 后 , 我 们 

将 其 放 到 HDFS。 


然后 , 我 们 创建 了 ReduceJoin.java 文 件 , 它 看 起 来 很 像 我 们 之 前 用 过 的 MapReduce 作 业 。 
这 个 ReduceJoin 作 业 的 某 些 内 容 使 它 变 得 与 众 不 同 ， 并 实现 了 一 个 联结 操作 。 


首先 ，ReduceJoin 类 定义 了 两 个 mapper。 我 们 之 前 曾 讲 过 ，MapReduce 作 业 可 以 包含 多 个 链 
式 执行 的 mapper。 但 本 例 中 ,我 们 希望 为 每 个 输入 数据 源 都 实现 不 同 的 mapper。 于 是 ,我 们 分 别 
在 SalesRecorkMapper 和 AccountRecordMapper 类 中 定义 了 销售 数据 和 账户 数据 。 我 们 用 到 
了 org.apache.hadoop.mapreduce.1ib.io 包 里 的 MultipleInputs 类 ， 如 下 所 示 。 



























































MultipleInputs.addInputPath(job, new Path(args[01]), 
TextlInputFormat.class, SalesRecordMapper.class) 

MultipleInputs.addInputPath(job, new Path(args[11]), 
TextlInputFormat.class, AccountRecordMapper.class) ; 


如 你 所 见 , 之 前 的 例子 中 只 有 一 个 输入 数据 源 ， 而 本 例 则 与 之 不 同 , MultipleInputs% fù 
许 我 们 有 多 个 数据 源 ， 并 为 每 个 数据 源 指定 独立 的 输入 格式 和 mapper。 





mapper 的 实现 相当 简单 ，salesRecordMapper 类 的 输出 格式 为 <account number», 
«sales value», 而 AccountRecordMapper 类 的 输出 格式 为 <account number», «client 


name>。 因 此 ， 我 们 把 排序 后 的 各 次 销售 额 和 客户 姓名 传人 reducer， 在 reducer 中 执行 数据 联结 。 


请 注意 ， 实 际 上 两 个 mapper 都 输出 了 多 余数 据 。salesRecoraMapper 类 在 输出 销售 额 时 以 
sales 为 前 级 ， 而 AccountRecordMapper 类 以 account 为 前 级 。 


如 果 我 们 看 一 下 reducer, 就 会 明白 这 样 做 的 原因 。reducer 会 获取 给 定 键 的 每 条 记录 , 但 如 果 
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不 使 用 这 些 明 确 的 标签 ， 我 们 就 不 知道 给 定 值 是 sales mapper 的 输出 还 是 account mapper 的 输出 ， 
因此 也 就 不 知道 该 怎样 处 理 这 些 数据 。 


因此 ，ReduceJoinReducer 类 根据 Iterator 对 象 中 的 值 来 自 哪 个 mapper， 决 定 对 其 采取 
相应 的 处 理 措施 。 AccountRecordMapper 类 的 输出 (应 该 有 且 仅 有 一 个 ) 被 用 于 生成 作业 最 终 
输出 结果 中 的 客户 姓名 。 针 对 每 位 客户 的 销售 记录 ( 很 可 能 是 多 个 的 ， 因 为 大 部 分 客户 会 买 多 样 
商品 ) 被 用 于 计算 订单 总 数 和 总 消费 额 。 因 此 ，reducer 输 出 数据 的 键 是 账户 持 有 人 姓名 ,， 值 是 包 
含 订单 总 数 和 总 消费 额 的 字符 串 。 

我 们 编译 并 执行 ReduceJoin 类 。 请 注意 ,我 们 输入 了 三 个 参数 ， 其 中 两 个 参数 表示 输入 
路 径 , 男 一 个 参数 表示 输出 路 径 。 根 据 Mul1tipleInputs 类 的 不 同 配置 方式 , 我们 必须 保证 以 
正确 的 顺序 输入 三 个 参数 , MapRedquce 作 业 中 不 存在 判定 哪 种 类 型 的 文件 在 哪个 目录 下 的 动态 
机 制 。 


执行 完毕 后 ， 我 们 检查 输出 文件 并 确认 输出 文件 包含 了 客户 姓名 及 其 总 消费 额 。 









































DataJoinMapper 和 TaggedMapperOutput 


还 有 一 种 实现 reduce 端 联结 的 方法 ， 这 种 方法 更 为 复杂 ， 而 且 是 面向 对 象 的 。DataJoin- 
MapperBase 和 TaggedqMapoutput 类 在 org.apache.hadoop .contrib.join 包 里 ， 它 们 封装 
了 获取 map 输 出 标签 并 将 它们 传 给 reducer 的 方法 。 也 就 是 说 ， 有 了 这 种 方法 ， 我 们 不 必 再 像 刚才 
那样 显 式 定义 标签 字符 串 ,然后 小 心 解析 reducer 收 到 的 数据 ,才能 识别 数据 是 哪个 mapper 输 出 的 。 
Hadoop 提 供 的 DataJoinMapperBase 和 TaggedMapoutput 类 已 经 封装 了 实现 该 功能 的 函数 。 


尤其 是 处 理 数值 型 或 非 文 本 型 数据 时 , 这 个 功能 特别 重要 。 因 为 如 果 像 之 前 例子 那样 创建 明 
确 的 标签 的 话 , 我 们 必须 将 整 型 数据 转换 成 字符 串 ， 然 后 才能 添加 所 要 求 的 标签 前 级 。 与 使 用 标 
准 格式 的 数值 类 型 并 使 用 其 他 类 来 实现 标签 的 方法 相 比 ， 上 述 方法 的 效率 要 低 得 多 。 


Hadoop 框 架 支 持 复 杂 的 标签 生成 以 及 标签 分 组 ， 我 们 之 前 没有 实现 这 些 功能 。 要 使 用 这 些 
功能 ， 还 需要 完成 一 些 其 他 工作 ， 包 括 重 写 某 些 方法 以 及 使 用 另外 的 map 基 类 。 对 于 像 上 例 这 么 
简单 的 联结 来 讲 , 使 用 Hadoop 框 架 提供 的 标签 处 理 机 制 有 点 大 材 小 用 , 但 如 果 要 实现 非常 复杂 的 
标签 处 理 代 码 ， 值 得 试 试 它 。 






































5.3.1 实现 map 端 联结 


要 想 在 某 个 阶段 实现 数据 联结 , 必须 能 够 在 相应 的 时 间 访 问 每 个 数据 集 的 适用 记录 。 这 就 是 
reduce 端 联结 易于 实现 的 原因 。 尽 管 reduce 端 联结 会 消耗 额外 的 网 络 流量 ， 但 显然 ，reducer 掌 握 
所 有 与 联结 键 相 关 的 记录 。 


如 果 我 们 想 在 mapper 中 执行 联结 , 上 述 条 件 并 不 容易 满足 。 我 们 不 能 保证 输入 数据 的 结构 化 
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程度 足够 好 , 可 以 同时 读 出 关联 记录 。 这 里 我 们 大 致 有 两 种 方法 : 避免 从 多 个 外 部 源 读 取 数据 或 
预 处 理 数 据 使 其 可 用 于 map 端 联结 。 


1. 使 用 Distributed Cache 


实现 第 一 种 方法 的 最 简单 方式 就 是 ， 只 使 用 一 个 数据 集 并 把 它 放 入 上 一 章 讲 到 的 Distributed 
Cache。 该 方法 可 用 于 多 个 数据 源 ， 但 简单 起 见 ， 我 们 这 里 只 讨论 两 个 数据 源 的 情况 。 


如 果 我 们 有 一 个 较 大 数据 集 和 一 个 较 小 数据 集 , 例如 之 前 的 销售 记录 和 账户 信息 , 一 种 做 法 
是 把 账户 信息 打包 放 入 Distributed Cache。 然 后 每 个 mapper 将 这 些 数 据 读 入 一 个 高 效 的 数据 结构 ， 
如 使 用 联结 键 作 为 哈 希 键 的 哈 希 表 。 接 着 处 理 销 售 记 录 , 在 处 理 过 程 中 ,可 以 从 哈 希 表 中 获取 要 
用 的 每 条 账户 信息 。 

这 种 方法 非常 有 效 , 尤其 是 当 较 小 的 数据 集 可 以 轻易 读 和 人 内存 时 , 这 是 一 种 很 好 的 做 法 。 然 
而 ,我 们 并 非 总 是 如 此 幸运 ， 有 时 最 小 数据 集 的 规模 也 很 大 ， 以 至 于 无 法 将 其 拷贝 到 每 台 工 作 机 
并 保存 在 内 存 里 。 
















































































一 展 身手 : 实现 map 端 联结 


以 刚才 的 销售 记录 /账户 记录 为 例 ， 使 用 Distributed Cache 实 现 map 端 联结 。 如 果 将 账户 记 
录 载 入 哈 希 表 中 实现 账户 ID 和 客户 名 字 的 映射 ， 那 么 就 可 以 用 账户 ID 获取 客户 姓名 。 这 样 就 
可 以 在 mapper 处 理 销售 信息 时 实现 map 端 联结 。 


2. 裁剪 数据 以 适合 缓存 大 小 


如 果 最 小 数据 集 对 Distributed Cache 来 说 还 是 太 大 ， 并 不 需要 舍弃 所 有 字段 。 比 如 ， 在 前 面 
的 例子 中 , 我 们 仅 从 每 条 记录 中 提取 了 两 个 字段 并 丢弃 了 作业 不 需要 的 其 他 字段 。 实 际 上 ,账户 
有 多 个 属性 , 这 种 减少 数据 量 的 方法 会 显著 降低 数据 规模 。 通 常 ，Hadoop 可 访问 的 数据 是 完整 数 
据 集 ， 但 是 我 们 需要 的 只 是 其 中 若干 字段 。 


因此 , 在 此 情况 下 ,我 们 可 以 从 完整 数据 集中 提取 MapReduce 作 业 需 要 的 字段 ， 通 过 这 种 方 
式 创建 的 裁剪 数据 集 的 大 小 完全 适合 在 缓存 中 使 用 。 























这 种 方法 与 面向 列 的 数据 库 ( column-oriented databases ) 的 概念 非常 相似 。 

VIN 传统 的 关系 数据 库 每 次 存储 一 行 数据 , 这 就 意味 着 需要 读 取 完整 的 一 行 , 然后 从 

> 中 提取 菜 一 列 的 内 容 。 基于 列 的 数据 库 则 是 分 别 存 储 每 一 列 ， 允许 每 次 查询 直接 
读 取 用 户 感 兴趣 的 列 。 








如 果 采 用 这 种 方法 ,需要 考虑 何 种 机 制 可 以 被 用 来 生成 数据 子 集 ,以 及 执行 这 些 操作 的 频率 。 
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一 种 直接 的 方法 是 编写 男 外 一 个 MapReduce 作 业 ， 用 它 完成 必需 的 过 滤 ， 在 后 续 的 作业 中 将 该 作 
业 的 输出 用 在 Distributed Cache 中 。 如 有 果 较 小 数据 集 的 变动 很 小 ， 就 避免 了 按照 预定 计划 生成 裁 
剪 数据 集 的 麻烦 。 例 如 ， 每 晚 刷新 数据 集 。 和 否则 ， 你 需要 用 到 由 两 个 MapReduce 作 业 组 成 的 作业 
b. 一 个 作业 用 于 生成 裁剪 数据 集 ， 男 一 个 作业 利用 原始 数据 集 和 Distributed Cache 中 的 数据 执 
行 联结 操作 。 


3. 使 用 代表 数据 而 非 原始 数据 


有 时 ,我 们 使 用 某 个 数据 源 并 非 是 为 了 绪 取 额外 数据 ,而 是 为 了 推导 出 一 些 辅 助 决策 的 结论 。 
例如 ， 我 们 可 能 希望 通过 分 析 销 售 记录 ， 从 中 提取 那些 配送 地 址 属于 某 一 特定 区 域 的 记录 。 


在 这 种 情况 下 ， 我 们 可 以 将 所 需 数据 的 规模 降 至 一 列 合 适 的 销售 记录 ， 它 们 更 易 被 放 和 人 
缓存 。 同 样 ， 我 们 可 以 将 其 存 人 只 存储 有 效 记 录 的 哈 希 表 ， 甚 至 使 用 类 似 排 序列 表 或 排序 树 
的 形式 。 在 可 以 接受 误 报 却 须 保 证 没有 漏 报 的 情况 下 ， 可 以 使 用 Bloom flter 紧 次 地 表示 此 类 
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可 以 看 出 ， 采 用 这 种 方法 实现 map 端 联结 需要 创新 ， 并 与 数据 集 的 性 质 和 手头 的 问题 有 很 大 
关系 。 但 是 请 记 住 ， 最 好 的 关系 型 数据 库 管理 员 耗 费 大 量 时 间 易 除非 必要 的 数据 处 理 ， 以 达到 优 
化 查询 的 目的 。 因 此 ， 读 者 需要 时 常 问 问 自 己 是 和 否 真 的 需要 处 理 所 有 数据 。 

4. 使 用 多 个 mapper 


从 根本 上 说 ,上 述 技术 都 在 尽力 避免 实现 多 个 完整 数据 集 之 间 的 联结 。 但 有 时 不 得 不 这 样 做 ， 
为 你 可 能 会 遇 到 非常 庞大 的 数据 集 ， 而 且 无 法 用 这 些 方法 合并 。 



































org.apache.hadoop.mapreduce.lib.join 包 里 有 一 些 类 支持 这 种 需 求 。 
CompositeInputFormat 是 一 个 有 趣 的 主 类 ， 它 使 用 用 户 定 义 的 函数 合并 多 个 数据 源 的 记录 。 


这 种 方法 的 主要 缺点 是 ， 所 有 数据 源 必 须 以 相同 键 为 索引 ， 并 且 以 相同 方法 进行 排序 和 
分 块 。 原 因 很 简单 ， 从 每 个 数据 源 读 取 数据 时 ，Hadoop 框 架 需 要 知道 某 个 特定 键 是 否 出 现在 
每 条 记录 中 。 假 如 每 个 分 块 都 是 有 序 的 ， 并 包括 相同 的 键 ， 可 以 使 用 简单 的 迭代 程序 完成 所 
需 的 匹配 。 


显然 , 要 处 理 的 数据 不 可 能 恰好 满足 上 述 条 件 , 所 以 读者 需要 自己 编写 预 处 理 作业 , 将 所 有 
的 输入 数据 源 转化 成 正确 的 顺序 和 分 块 结 构 。 



































本 节 讨 论 的 内 容 开 始 涉及 分 布 式 联结 和 并 行 联结 算法 ,这 些 课题 都 经 历 了 广 
泛 的 学 术 研究 和 商业 研究 。 如 果 你 对 这 些 内 容 感 兴趣 并 想 学 习 更 多 的 基础 理论 ， 
到 http://scholar.google.com 搜 索 相 关内 容 。 
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5.3.2 是否 进行 联结 


结束 了 MapReduce 的 联结 之 旅 后 ,让 我 们 回 到 最 开头 的 问题 : 你 是 否 真 要 进行 联结 操作 ? 读 
者 常常 需要 在 较 易 实现 却 效率 不 高 的 reduce 端 联结 和 较为 高 效 也 更 为 复杂 的 map 端 联结 之 间 做 出 
选择 。 我 们 已 看 到 ， 的 确 可 在 MapReduce 中 实现 多 个 数据 源 的 联结 , 但 有 时 源 数据 并 不 适合 进行 
联结 操作 。 如 果 执 行 联结 操作 需要 用 户 投 入 大 量 精力 ， 我 们 推荐 使 用 Hive 或 Pig。 显 然 ， 我 们 可 
以 使 用 上 述 工具 ， 它 们 在 后 台 生 成 MapReduce 代 码 ， 并 直接 实现 map 端 和 reduce 端 联结 。 但 最 好 
使 用 一 个 精心 设计 、 经 过 优化 的 代码 库 完 成 这 些 工作 ， 而 不 要 自行 实现 。 这 也 正 是 我 们 要 使 用 
Hadoop 而 不 自己 编写 分 布 式 处 理 框架 的 原因 。 





















































5.4 图 算法 


所 有 杰出 的 计算 机 科学 家 都 认为 图 数据 结构 是 最 强大 的 工具 之 一 。 很 多 复杂 系统 都 由 图 来 表 
IW, 至 少 几 十 年 前 就 出 现 了 强大 的 算法 知识 体系 来 解决 大 量 图 问题 。 但 由 于 其 本 身 性 质 , 图 及 图 
算法 通常 很 难 用 MapReduce 范 式 描述 。 








5.4.1 Graph 101 


退 一 步 ， 我 们 先 对 图 的 相关 术语 进行 定义 。 图 是 由 多 个 通过 边 相 连 的 节点 ( 也 被 称 为 顶点 ) 
组 成 的 数据 结构 。 根 据 图 的 类 型 ， 边 可 以 是 单 向 边 也 可 以 是 双向 边 ， 也 可 以 有 与 之 关联 的 权重 。 
例如 ， 一 个 城市 的 路 网 可 以 看 做 一 张 图 ， 其 中 路 是 图 的 边 ， 路 的 交点 和 感 兴趣 的 点 是 图 的 节点 。 
有 些 路 是 单 向 路 ， 有 些 不 是 ; 有 些 路 要 收 通行 费 ， 有 些 路 在 某 些 时 候 处 于 封闭 状态 ， 等 等 。 


对 物流 公司 而 言 , 选择 一 条 从 一 个 地 方 到 男 一 个 地 方 的 最 佳 路 径 可 以 节省 很 多 钱 。 不 同 的 图 
算法 通过 综合 考虑 各 条 路 的 属性 得 出 最 佳 路 径 。 这 些 属性 包括 是 否 是 单行 道 , 以 及 用 权重 表示 的 
通行 成 本 ， 它 决定 了 特定 道路 是 否 更 具 吸 引力 。 

一 个 更 时 比 的 例子 是 社交 关系 图 , 随 着 Facebook 之 类 的 网 站 越 来 越 受 欢迎 , 这 种 社交 关系 图 
也 逐渐 普及 起 来 。 社 交 关 系 图 视 可 被 为 以 人 为 节点 ， 以 他 们 之 间 的 关系 为 边 的 图 。 






























































5.4.2 图 和 MapReduce 


图 与 其 他 MapReduce 问 题 的 主要 区 别 在 于 , 图 处 理 是 有 状态 的 , 这 可 以 从 节点 间 的 路 径 关系 
和 图 算法 处 理 的 大 量 节 点 间 的 路 径 关系 看 出 来 。 图 算法 倾向 于 根据 全 局 状态 决定 下 一 步 要 处 理 的 
节点 ， 并 在 每 步 操作 中 修改 全 局 状态 。 


尤其 是 , 大 多 数 著名 的 算法 通常 以 增 量 方式 或 可 重 入 方式 执行 , 它们 用 不 同 的 数据 结构 表示 
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已 处 理 节点 和 待 处 理 节点 ， 然 后 对 未 处 理 节 点 进行 运算 并 将 该 节点 加 入 到 已 处 理 节点 集合 中 。 


但 是 ， 从 概念 上 讲 ，MapReduce 作 业 是 无 状态 的 。 它 基于 分 而 治之 的 方法 ,每 台 Hadoop 主 机 
处 理 全 部 数据 的 一 小 部 分 , 并 输出 作业 最 终结 果 的 一 部 分 ,而 整个 作业 的 最 终 输出 可 以 视 为 这 些 
子 任务 输出 的 聚合 。 因 此 , 使 用 Hadoop 实 现 图 算法 时 , 我 们 需要 把 原本 有 状态 的 单线 程 算法 用 无 
状态 的 、 并 行 的 分 布 式 框架 来 描述 。 这 就 是 最 大 的 挑战 。 
大 部 分 著名 的 图 算法 为 了 找 出 节点 间 符 合 需求 的 路 由 (通常 以 某 种 成 本 为 衡量 标准 )， 通 常 使 
用 图 搜索 或 图 遍历 的 办 法 。 最 基础 的 图 遍历 算法 是 DFS (depth-first search， 深 度 搜 索 算法 ) 和 BFS 
( breadth-first search, 广度 搜索 算法 )。 两 者 区 别 在 于 , 某 一 节点 及 其 邻居 节点 被 处 理 的 先后 顺序 不 同 。 
接 下 来 , 我 们 会 看 到 一 种 特殊 的 遍历 算法 , 它 为 图 中 的 给 定 起 始 节 点 计算 图 中 其 余 所 有 节点 
与 该 节点 的 距离 。 















































可 以 看 出 ， 图 论 和 图 算法 是 一 个 巨大 的 研究 领域 ， 本 书 对 其 介绍 非常 有 限 。 
如 果 读 者 起 了 解 更 多 内 容 ， 可 以 从 Wikipedia 中 关于 图 的 条 目 开始 ， 参 见 http://en. 
wikipedia.org/wiki/Graph (abstract data type). 


5.4.3. 图 的 表示 方法 


我 们 面临 的 第 一 个 问题 就 是 ， 如 何 表示 图 才能 使 用 MapReduce 对 其 进行 高 效 处 理 。 有 几 种 
的 表示 方法 为 大 家 所 熟知 , 例如 基于 指针 的 表示 法 ,邻接 矩阵 表示 法 和 邻接 表 表 示 法 。 在 大 多 数 
实现 中 ,这 些 表示 法 通常 假设 整个 图 可 以 存储 在 单个 进程 空间 ,我 们 需要 对 这 些 表示 法 进行 修改 ， 
允许 独立 的 map 和 reduce 任 务 对 个 别 节点 进行 处 理 。 


在 后 面 的 例子 中 ， 我 们 以 下 图 为 例 进行 介绍 。 该 图 还 包含 一 些 稍 后 会 讲 到 的 额外 信息 。 
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这 个 图 很 简单 ， 只 有 7 个 节点 ， 其 中 只 有 一 条 单 向 边 ， 其 余 都 是 双向 边 。 我 们 使 用 了 标准 图 
算法 使 用 的 着 色 方法 ， 其 中 : 


口 日 色 表 示 未 处 理 节点 ; 
口 灰色 表示 正在 处 理 的 节点 ; 
口 黑色 表示 已 处 理 节 点 。 


随 着 我 们 在 下 列 操 作 中 逐步 处 理 各 个 节点 ， 节 点 状态 会 按照 上 述 约定 发 生变 化 。 





5.5 ”实践 环节 : 图 的 表示 
首先 定义 一 种 图 的 文本 表示 法 ， 后 面 的 例子 中 会 用 到 该 方法 。 


新 建 graph.txt 文 件 ， 其 内 容 如 下 


127,3; 
21,4 
315,6 
41,2 
53,6 
63,5 
76 


原理 分 析 


我 们 定义 了 表示 图 的 文件 结构 , 在 某 种 程度 上 , 它 借鉴 了 图 的 邻接 表 表 示 法 。 假设 每 个 节点 
有 1 个 唯一 的 ID ， 该 文件 结构 包括 4 个 字段 ， 具 体内 容 如 下 : 
口 节点 ID 
a 以 逗号 分 隔 的 邻居 列表 
口 与 起 始点 的 距离 
口 节点 状态 


最 初 ， 只 有 起 始 节点 的 第 3 个 和 第 4 个 字段 有 值 : 它 与 自身 的 距离 为 0， 状 态 为 “C”。 上 有 具体 原 
因 会 在 后 续 内 容 进行 解释 。 









































这 个 图 是 一 个 有 向 图 ， bud 节点 1 指向 节点 2 的 路 径 与 节点 2 指向 节点 1 的 路 径 是 两 条 不 
同 的 路 径 。 从 图 示 中 可 以 看 到 ， 除 一 条 边 外 ， 其 余 边 的 两 个 端点 都 有 箭头 。 
算法 综述 


由 于 该 算法 及 相应 的 MapReduce 作 业 相当 复杂 , 我 们 将 先 解释 算法 ,然后 展示 代码 ， 最 后 在 


5.6 ”实践 环节 : 创建 源 代码 115 





算法 的 使 用 过 程 中 说 明 其 原理 。 


基于 上 述 表 示 方 法 ,我 们 定义 一 个 可 多 次 执行 的 MapReduce 作 业 ， 以 获得 最 终 输 出 。 每 次 执 
行 作业 时 ,使 用 上 次 作业 运行 的 输出 作为 本 次 运行 的 输入 。 


基于 上 节 描 述 的 色 码 ， 我们 定义 了 节点 的 三 种 状态 ， 如 下 所 述 。 


口 Pending: 节点 尚未 被 处 理 。 这 是 节点 的 默认 状态 ， 对 应 白色 节点 。 
口 Currently processing: 节点 正在 被 处 理 ， 对 应 灰色 节点 。 
O Done: 已 算出 了 节点 与 起 始点 的 最 终 距 离 ， 对 应 黑色 节点 。 














1. mapper 
mapper 读 取 图 的 当前 状态 ， 并 按照 下 述 方法 处 理 节 点 。 


口 如 果 节 点 状态 为 Done， 原 封 不 动 将 其 输出 。 

口 如 果 节 点 状态 为 Currently processing， 把 它 的 状态 改 为 Done， 然 后 输出 。 它 的 邻居 节点 的 
输出 与 该 节点 类 似 ， 只 是 在 其 距离 值 的 基础 上 加 1， 而 邻居 节点 保持 不 变 。 例 如 ， 节 点 1 
不 知道 节点 2 的 邻居 节点 。 

口 如 果 节 点 状态 为 Pending， 将 其 状态 改 为 Currently processing 并 输出 。 























2. reducer 
reducer 会 收 到 每 个 节点 的 一 条 或 多 条 记录 ， 它 会 把 这 些 记录 值 合并 成 节点 的 最 终 输出 。 
reducer 的 主要 算法 如 下 : 
O 状态 为 Done 的 节点 的 输出 即 为 最 终 输出 ， 无 需 对 其 值 进一步 处 理 
O 对 处 于 其 他 状态 的 节点 ,提取 其 邻居 列表 ， 从 中 找 出 最 远 距 离 和 节点 状态 作为 最 终 输 出 。 
3. 迭代 应 用 
如 果 我 们 应 次 该 算法 ,节点 1 被 标记 为 Done, 它 的 直接 邻居 被 标记 为 Currently processing， 
其 余 节 Uc edi 依次 应 用 该 算法 会 使 所 有 节点 都 转 为 Done 状 态 。 因 为 每 个 节点 总 
会 被 处 理 ， 它 的 邻居 都 被 纳入 正在 处 理 队 列 。 稍 后 我 们 会 演示 该 过 程 。 

















v. 











5.6 ”实践 环节 : 创建 源 代码 


我 们 现在 讲解 实现 图 遍历 算法 的 源 代码 。 因 为 代码 较 长 ， 我 们 将 其 分 为 几 个 部 分 。 显 然 ， 这 
些 代 码 应 当 放 在 同一 个 源 文 件 中 。 


(1) 新 建 GraphPath,java 文 件 ， 添 加 下 列 引 用 声明。 
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import java.io.* ; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.*; 
import org.apache.hadoop.mapreduce.lib.output.*; 


public class GraphPath 
{ 


创建 内 部 类 ， 以 面向 对 象 的 方法 表示 节点 。 


// Inner class to represent a node 
public static class Node 


// The integer node id 

private String id ; 

// The ids of all nodes this node has a path to 
private String neighbours ; 

// The distance of this node to the starting node 
private int distance ; 

// The current node state 

private String state ; 





// Parse the text file representation into a Node object 
Node( Text t) 
{ 
String] parts = t.toString().split("Nt") ; 
this.id - parts[0] ; 
this.neighbours = parts[1] ; 


if (parts.length«3 || parts[2].equals("")) 
this.distance - -1 ; 
else 


this.distance = Integer.parseInt(parts[2]) ; 


if (parts.length« 4 || parts[3].equals("")) 
this.state - "P" 
else 
this.state - parts[3] ; 
} 


// Create a node from a key and value object pair 
Node (Text key, Text value) 
{ 


this (new Text (key.toString()+"\t"+value.toString())) 


Public String getId() 
(return this.id ; 


) 


r 
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public String getNeighbours() 


i 
return this.neighbours ; 
} 
public int getDistance() 
{ 
return this.distance ; 
} 
public String getState() 
{ 
return this.state ; 
} 


) 


(3) 创建 作业 的 mapper。 该 mapper 新 建 一 个 Node 对 象 接收 输入 数据 ， 并 根据 Node 对 象 的 状态 
执行 相应 操作 。 
public static class GraphPathMapper 


extends Mapper«Object, Text, Text, Text» 


{ 








public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException 





{ 
Node n = new Node(value) ; 
if (n.getState().equals("C")) 
t 
T Output the node with its state changed to Done 
context.write(new Text(n.getId()), new 


Text(n.getNeighbours()-*"Nt"«n.getDistance()-*"Nt"«e"D")) ; 


for (String neighbour:n.getNeighbours(). 
split(",")) 


// Output each neighbour as a Currently processing node 

// Increment the distance by 1; it is one link further away 
context.write(new Text(neighbour), new 

Text("Nt"-(n.getDistance()*1)-"NtC")) ; 


} 
} 
else 
{ 
// Output a pending node unchanged 
context.write(new Text(n.getId()), new 


Text (n.getNeighbours()-"Nt"«n.getDistance() 
-"Nt"«n.getState())) ; 
} 
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(4) 创建 作业 的 reducer。 与 mapper 一 样 ， 该 reducer 读 取 节 点 记录 ， 并 根据 节点 状态 输出 不 同 的 
Jh, 基本 方法 是 ,从 输入 数据 提取 状态 和 距离 字段 的 最 大 值 ， 并 把 这 些 值 汇聚 成 最 终 输 出 。 


public static class GraphPathReducer 
extends Reducer«Text, Text, Text, Text» 


{ 
public void reduce (Text key, Iterable<Text> values, 
Context context) 
throws IOException, InterruptedException 
{ 


// Set some default values for the final output 
String neighbours = null ; 

int distance = -1 ; 

String state = "P" 


for (Text t: values) 


Node n = new Node (key, t) ; 
if (n.getState().equals("D")) 
{ 
// A done node should be the final output; ignore the remaining 
// values 
neighbours = n.getNeighbours() ; 
distance = n.getDistance() ; 
state = n.getState() ; 
break ; 


// Select the list of neighbours when found 
if (n.getNeighbours() !- null) 
neighbours - n.getNeighbours() ; 


// Select the largest distance 
if (n.getDistance() » distance) 
distance = n.getDistance() ; 


// Select the highest remaining state 
if (n.getState().equals("D") || 
(n.getState().equals("C") &&state.equals("P"))) 
state-n.getState() ; 
} 


// Output a new node representation from the collected parts 
context.write(key, new 
Text(neighbours-"Nt"«distance-s"Nt"«state)) ; 
j 
} 


(5) 创建 作业 驱动 。 


public static void main(String[] args) throws Exception 
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Configuration conf = new Configuration(); 


Job 


job. 
job. 
job. 
job. 
job. 
FileInputFormat.addInputPath(job, new Path(args[0] 


job = new Job(conf, "graph path"); 

setJarByClass (GraphPath.class); 

setMapperClass (GraphPathMapper.class); 
setReducerClass (GraphPathReducer.class); 
setOutputKeyClass(Text.class); 
setOutputValueClass(Text.class); 

); 


) 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 


原理 分 析 


该 作业 实现 了 之 前 描述 的 算法 , 下 节 将 会 执行 该 算法 。 作 业 设 置 没什么 特别 的 , 除了 算法 定 
义 ， 还 首次 使 用 内 部 类 来 表示 节点 。 

通常 , mapper 或 reducer 的 输入 是 对 复杂 结构 或 对 象 的 扁平 化 表示 。 我 们 可 以 使 用 那 种 表示 方 
法 ,但 这 样 会 导致 mapper 和 和 reducer 中 充满 了 文本 和 字符 串 操 作 代码 ， 不 利于 理解 算法 本 身 。 


使 用 Noge 内 部 类 


























， 实 现 了 从 扁平 的 文本 文件 向 封闭 对 象 的 映射 ， 这 种 用 对 象 表示 节点 的 方 





法 在 业务 领域 很 有 意义 。 从 语义 来 说 , 不 同 对 象 之 间 的 属性 对 比 要 比 字符 串 对 比 更 有 意义 ,这 也 
使 得 mapper 和 reducer 的 逻辑 更 为 清楚 。 
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第 一 次 运行 作业 


现在 ， 我 们 使 用 该 算法 对 图 进行 首次 运算 。 


(1) 将 之 前 创建 的 graph.txt 文 件 放 到 HDFS。 


$ hadoop fs 
$ hadoop fs 


-mkdirgraphin 
-put graph.txtgraphin/graph.txt 


(2) 编译 源 文 件 并 创建 JAR 文 件 。 


$ javac GraphPath.java 
$ jar -cvf graph.jar *.class 


(3) 执行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphPathgraphingraphouti1 


(4) 检查 输出 文件 。 


$ hadoop fs -cat /home/user/hadoop/graphouti/part-r00000 


12,3,40D 
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21,41C 
31,5,61C 
41,21C 
53,6-1P 
63,5-1P 
76-1P 


原理 分 析 


将 数据 源 文 件 放 到 HDFS 上 并 创建 了 作业 JAR 文 件 之 后 ， 我 们 在 Hadoop 上 执行 作业 。 输 出 结 
果 显 示 ， 该 图 发 生 了 一 些 变化 ， 有 具体 如 下 : 


























a 节点 1 被 标记 为 Done 状 态 。 显 然 ， 它 与 自身 的 距离 是 0; 
OQ 节点 2、3、4 作 为 节点 1 的 邻居 ， 被 标记 为 Currently processing 节 点 ; 
口 其 余 节 点 都 被 标记 为 Pending。 











经 过 一 次 MapReduce 人 处理 之 后 ， 该 图 状态 如 下 所 示 。 
































运行 结果 和 算法 描述 相 吻 合 , 一 切 都 在 预料 之 中 。 第 一 个 节点 已 处 理 完毕 ,mapper 提 取 的 邻 
居 节 点 正在 处 理 中 ， 其 余 节 点 还 没 开始 处 理 。 





5.8 ”实践 环节 : 第 二 次 运行 作业 


假如 我 们 把 上 步 的 输出 结果 作为 下 次 作业 运行 的 输入 , 我 们 认为 节点 2、3、4 将 处 于 Done( 已 
处 理 ) 状态 ， 它 们 的 邻居 节点 将 处 于 Currently processing ( 正在 处 理 ) 状态 。 执 行 下 列 步骤 ， 看 
看 我 们 的 猜想 是 否 正 确 。 
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(D) 执行 下 列 命令 ， 运 行 MapReduce 作 业 。 
$ hadoop jar graph.jarGraphPathgraphoutigraphout2 
(2) 检查 输出 文件 。 


$ hadoop fs -cat /home/user/hadoop/graphout2/part-r000000 
12,3,40D 

21,41D 

31,5,61D 

41,21D 

53,62C 

63,52C 

76-1P 


原理 分 析 


果然 不 出 所 料 ， 经 过 第 二 次 处 理 后 ， 节 点 1~4 人 处 于 已 处 理 状态 ， 节 点 5 和 节点 6 处 于 正在 处 理 
状态 ， 节 点 7 处 于 未 处 理 状态 ， 如 下 图 所 示 。 5 





























BRETEN, RIAK, PRASAT EXORDIA m EN Done, RORORAEBPERUAD S ra 


状态 会 变 为 Currently processing. 
5.9 ”实践 环节 : 第 三 次 运行 作业 
第 三 次 执行 算法 ， 验 证 我 们 的 预测 是 否 正确 。 


(1) 执行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphPathgraphout2graphout3 
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(2) 检查 输出 文件 。 


$ hadoop fs -cat /user/hadoop/graphout3/part-r-00000 
12,3,40D 

21,41D 

31,5,61D 

41,21D 

53,62D 

63,52D 

76-1P 


原理 分 析 


现在 ， 我 们 看 到 节点 1~6 处 于 Done 状 态 。 但 节点 7 仍 处 于 Pending (未 处 理 ) RE, HRA 
点 正在 被 处 理 ， 如 下 图 所 示 。 


























之 所 以 出 现 这 种 情况 , 是 由 于 虽然 存在 一 条 以 节点 7 为 起 点 、 节 点 6 为 终点 的 边 , 却 不 存在 反 
向 边 ， 造 成 节点 6 无 法 访问 节点 7。 因 此 ， 从 节点 1 出 发 无 法 到 达 节 点 7。 如 果 最 后 运行 一 次 算法 ， 
我 们 认为 该 图 保持 不 变 。 

















5.10 ”实践 环节 : 第 四 次 也 是 最 后 一 次 运行 作业 
让 我 们 再 运行 一 次 作业 ， 验 证 作业 输出 是 否 已 达到 最 终 稳 定 状态 。 


(1) 执行 MapReduce 作 业 。 
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$ hadoop jar graph.jarGraphPathgraphout3graphout4 
(2) 检查 输出 文件 。 


$ hadoop fs -cat /user/hadoop/graphout4/part-r-00000 
12,3,40D 

21,41D 

31,5,61D 

41,21D 

53,62D 

63,52D 

76-1P 


原理 分 析 


输出 的 结果 与 预期 一 致 。 因 为 从 节点 1 或 其 邻居 节点 出 发 无 法 到 达 节 点 7， 点 7 的 状态 
仍 为 Pending( 未 处 理 )， 且 永远 无 法 对 其 进行 处 理 。 因 此 ， 该 图 已 达到 稳定 状态 ， 其 输出 保持 不 
变 ， 如 下 图 所 示 。 






























































我 们 的 算法 中 未 加 入 对 其 是 否 满 足 结束 条 件 的 判断 。 如 果 经 过 某 次 运算 后 , 该 图 不 再 产生 新 
的 Done 或 Currently processing 节 点 ， 即 完成 了 整个 运算 过 程 。 

本 章 , 我 们 使 用 手工 方法 判断 算法 是 否 满足 结束 条 件 , 也 就 是 说 , 我 们 通过 实验 得 知 该 图 已 
达到 最 终 的 稳定 状态 。 然 而 ,可 以 通过 编程 实现 这 个 功能 。 在 下 一 章 中 ,我 们 会 学 习 自 定义 的 作 
业 计 数 器 , 使 用 它 即 可 实现 该 功能 。 例 如 ,每 当 新 建 一 个 Done 或 Currently processing 15 AJER, 
计数 需 的 值 加 1。 只 有 在 某 次 作业 完成 运行 后 ， 计 数 器 的 值 大 于 0 时 ， 才 会 再 次 执行 作业 。 否 则 ， 
即 可 认为 该 图 达到 了 最 终 稳定 状态 。 
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5.10.1 运行 多 个 作业 

在 上 述 算法 中 , 我 们 首次 明确 地 把 一 个 MapReduce 作 业 的 输出 当做 男 一 个 作业 的 输入 。 在 大 
多 数 情 况 下 ， 这 些 接续 执行 的 作业 之 间 是 有 所 区 别 的 。 然而， 正如 我 们 所 看 到 的 ， 反复 执行 同一 
个 算法 直到 其 输出 达到 稳定 状态 是 很 有 意义 的 。 

















5.10.2 关于 图 的 终极 思 


对 熟悉 图 算法 的 人 来 说 ， 上 述 处 理 方法 显得 非常 陌生 。 其 实 ， 这 是 使 用 一 系列 无 状态 的 
MapReduce 作 业 实 现 一 个 有 状态 的 、 递 归 的 、 可 重信 的 图 算法 的 必然 结果 。 我 们 要 强调 的 并 非 用 
到 的 特定 算法 ,而 是 如 何 采 用 纯 文本 结构 和 一 系列 MapReduce 作 业 实 现 图 遍历 的 经 验 。 你 可 能 会 
遇 到 一 些 乍 看 上 去 似乎 无 法 使 用 MapReduce 范 式 解决 的 问题 。 此 时 ,认真 思考 本 章 用 到 的 一 些 技 
术 , 同时 请 记 住 , 许多 算法 都 可 以 使 用 MapReduce 建 模 。 它们 可 能 看 似 与 传统 方法 有 较 大 的 差别 ， 
但 我 们 的 目标 是 输出 正确 结果 ， 而 非 实现 一 种 已 知 算法 。 



































5.11 使 用 语言 无 关 的 数据 结构 


开发 者 往往 会 批评 Hadoop 的 一 切 设计 都 以 Java 为 中 心 ，Hadoop 团 队 一 直 在 努力 解决 这 个 问 
题 。 这 种 批评 似乎 有 点 奇怪 ， 难 到 一 个 用 Java 语 言 实现 的 项 目 不 该 以 Java 为 中 心 吗 ? 但 从 用 户 的 
角度 考虑 ， 他 们 希望 不 依赖 于 特定 语言 实现 对 Hadoop 的 操作 。 


在 第 4 章 ， 我 们 已 演示 了 使 用 Hadoop Streaming 脚 本 实现 map 和 reduce 任 务 的 方法 。 同 时 ，Pipes 
也 提供 了 类 似 的 使 用 C++ 实现 map 和 reduce 任 务 的 技术 。 然 而 ， 有 一 个 地 方 仍 只 能 使 用 Java， 它 就 是 
Hadoop MapReduce 支 持 的 输入 格式 。 效 率 最 高 的 输入 格式 是 SequenceFile, 它 是 一 种 支持 压缩 和 分 块 
的 二 进 制 文件 。 但 是 ，SequenceFile 只 提供 了 Java API， 用 户 无 法 使 用 其 他 语言 读 写 SequenceFile。 


我 们 可 以 使 用 外 部 进程 创建 用 于 MapReduce 作 业 的 数据 , 最 佳 方式 是 用 文本 格式 输出 生成 的 
数据 ， 或 者 对 生成 的 数据 进行 预 处 理 ， 将 其 转换 为 SequenceFile。 我 们 还 要 想 办 法 简化 复杂 数据 
类 型 的 表示 : 要 么 将 它们 转换 为 文本 格式 ,要么 编写 两 种 二 进 制 格式 的 转换 器 。 这 些 方法 都 不 是 
很 理想 。 


















































5.11.1 候选 技术 


幸运 的 是 ， 近 年 来 出 现 了 一 些 技术 可 以 解决 这 种 跨 语言 的 数据 表示 问题 。 这 些 技术 包括 
Protocol Buffers ( Google 创 建 的 项 目 ， 其 网 址 为 http://code.google.com/p/protobuf ), Thrift ( 该 项 
目 最 初 由 Facebook 创 建 ， 目 前 是 一 个 Apache 子 项 目 ， 其 网 址 为 http://thrift.apache.org ) 以 及 Avro 
(该 项 目 由 Hadoop 的 创建 者 Doug Cutting 所 创建 )。 由 于 Avro 的 创建 者 与 Hadoop 相 同 ， 我 们 将 使 用 
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它 来 研究 这 个 问题 。 本 书 中 不 会 讲 到 Thrift 和 Protocol Buffers, 但 它们 都 是 成 熟 的 技术 。 如 果 你 对 
数据 序列 化 的 问题 感 兴 趣 ， 请 访问 它们 的 主页 获取 更 多 信息 。 








5.11.2 Avro 简介 


Avro 是 一 种 数据 存储 框架 ， 可 使 用 多 种 编程 语言 对 其 进行 操作 ， 其 主页 地 址 为 
http:/avro.apache.org。Avro 创 建 了 一 种 可 压缩 和 可 切 分 的 二 进 制 结 构 化 数据 格式 ， 换 名 话说 ， 它 
可 以 有 效 地 用 于 向 MapReduce 作 业 输 入 数据 。 


Avro 支持 层次 化 的 数据 结构 , 因此, 我 们 可 以 在 一 个 Avro 记录 中 级 套 数组 、 枚 举 类 型 甚至 是 
一 个 子 记录 。 我 们 可 以 用 任何 程序 语言 创建 此 类 数据 文件 , 用 Hadoop 对 其 进行 处 理 , 并 使 用 第 三 
方 语 言 读 取 结 果 。 

下 一 节 , 我 们 将 讨论 Avro 的 语言 独立 性 ,而 其 表达 复杂 结构 类 型 的 能 力也 很 重要 。 即 便 只 使 
用 Java 语 言 ， 我 们 可 以 把 用 Avro 表示 的 复杂 数据 结构 作为 mapper 和 reducer 的 输入 输出 类 型 。 即 使 
是 像 图 节点 这 么 复杂 的 数据 结构 都 没 问 题 。 















































5.12 ”实践 环节 : 获取 并 安装 Avro 
下 面 ， 我 们 将 下 载 Avro 并 将 其 安装 在 自己 的 主机 上 。 
(1) 从 http://avro.apache.org/releases.html 下 载 Avro 的 最 新 稳定 版 本 。 
(2) 从 http://paranamer.codehaus.org 下 载 最 新 版 的 ParaNamer 库 。 


(3) 将 下 述 3 个 JAR 类 添加 到 build classpath， 以 供 Java 编 译 器 所 用 。 


$ export CLASSPATH-avro-1.7.2.jar:$(CLASSPATH) 
$ export CLASSPATH-avro-mapred-1.7.2.jar:$(CLASSPATH) 
$ export CLASSPATH-paranamer-2.5.jar:$(CLASSPATH) 


(4) 将 Hadoop 安 装 路 径 下 的 JAR 文 件 添加 到 build classpath, 


Export CLASSPATH-$(HADOOP HOME)/lib/Jackson-core-asl- 
1.8.jar:$ (CLASSPATH) 

Export CLASSPATH-$(HADOOP HOME)/lib/Jackson-mapred-as1l- 
1.8.jar:$ (CLASSPATH) 

Export CLASSPATH-$(HADOOP HOME)/lib/commons-cli- 
1.2.jar:$ (CLASSPATH) 


(5) 将 新 JAR 文 件 添加 到 Hadoop 1ib 目 录 。 
$cpavro-1.7.2.jar ${HADOOP_HOME}/lib 


$cpavro-1.7.2.jar ${HADOOP_HOME}/lib 
$cpavro-mapred-1.7.2.jar ${HADOOP_HOME}/lib 
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原理 分 析 
Avro 的 设置 稍微 有 点 复杂 , 它 的 创建 时 间 比 我 们 将 用 到 的 其 他 Apache 工 具 晚 得 多 , 因此 , 它 
的 设置 不 光 是 下 载 一 个 文件 那么 简单 。 


我 们 从 Apache 网 站 下 载 了 avro-1.7.2.jar 和 avro-mapred-1.7.2.jar 文 件 。 因 为 这 两 个 文件 依赖 于 
ParaNamer， 所 以 我 们 又 从 http://paranamer.codehaus.org 下 载 了 paranamer-2.5.jar。 














作者 在 创作 本 书 时 ，ParaNamer 主 页 上 的 下 载 链接 出 现 了 问题 。 作 为 替代 方 
案 ,， 试 一 下 下 面 这 个 下 载 链 接 : http://search.maven.org/remotecontent?filepath= 


com/thoughtworks/paranamer/paranamer/2.5/paranamer-2.5.jar 


在 下 载 到 上 述 JAR 文 件 之 后 ， 需 要 把 它们 添加 到 Java 编 译 器 要 用 到 的 classpath 中 。 与 此 同时 ， 
我 们 还 需要 把 编译 和 运行 Avro 代码 要 用 到 的 几 个 包 添 加 到 Hadoop 的 puila classpath, 


最 后 ,我 们 把 这 三 个 新 JAR 文 件 拷贝 到 集群 中 每 台 主机 的 Hadoop 1ib 目 录 下 。 这样， 在 运行 
map 和 reduce 任 务 的 时 候 就 可 以 使 用 这 些 类 。 我 们 也 可 以 使 用 其 他 方法 实现 上 述 JAR 文 件 的 分 发 ， 
但 这 是 最 简单 的 方式 。 
































Avro 及 其 模式 
与 Thrift 和 Protocol Buffers 之 类 的 工具 相 比 , Avro 的 一 个 优势 在 于 它 对 描述 数据 文件 的 模式 的 

时 方法 。 其 他 工具 都 要 求 模式 以 独立 资源 的 形式 存在 ,而 Avro 数 据 文件 将 模式 编码 到 该 文件 头 
部 ， 这 样 ， 代 码 无 需 独 立 的 模式 文件 即 可 解析 数据 文件 。 

Avro 支持 但 不 需要 代码 生成 功能 ， 该 功能 为 特定 的 数据 模式 生成 定制 代码 。 在 某 些 情况 下 ， 
这 是 一 种 重要 的 优化 措施 ， 却 不 是 必须 的 。 

因此 ， 我 们 可 以 写 出 一 系列 从 来 没有 真正 用 到 数据 文件 模式 的 Avro 例 程 ， 但 我 们 只 会 在 部 分 
数据 处 理 任 务 中 那样 做 .下 面 的 例子 中 ,我 们 定义 一 个 表示 删 减 过 的 UFO 目 击 事件 记录 的 数据 模式 。 
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5.13 ”实践 环节 : 定义 模式 
下 面 ， 我 们 将 在 单独 的 Avro 模式 文件 中 创建 简化 的 UFO 模 式 。 


将 以 下 内 容 保 存 为 ufo.avsc 文 件 。 


{ "type": "record", 
"name": "UFO Sighting Record", 
"fields" : [ 


("name": "sighting date", "type": "string"), 
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("name": "city", "type": "string"), 
("name": "shape", "type": ["null", "string"]), 
("name": "duration", "type": "float") 

] 

} 

原理 分 析 
可 以 看 出 ，Avro 在 其 模式 中 使 用 了 JSON 格 式 ，Avro 模 式 文件 名 通常 以 .avsc 为 后 级 。 刚 才 ， 


我 们 创建 了 一 个 模式 ， 其 格式 包括 4 个 字段 ， 各 字段 的 含义 如 下 所 示 : 

口 Sighting_date 字 段 类 型 为 string， 它 以 yyyy-mm-dd 这 样 的 形式 保存 日 期 ; 

O City 字 段 类 型 为 string， 它 表示 的 是 UFO 目 击 事件 发 生 的 城市 名 ; 

O Shape 字 段 类 型 为 string， 这 是 一 个 可 选 字段 ， 表 示 的 是 UFO 的 形状 ; 

口 Duration 字 段 以 小 数 形式 表示 目击 事件 的 持续 时 间 ， 该 字段 以 分 钟 为 单位 。 


我 们 将 按照 已 定义 的 模式 ， 创 建 一 些 样本 数据 。 











5.14 ”实践 环节 : 使 用 Ruby 创建 Avro 源 数 据 
下 面 ， 我 们 使 用 Ruby 创 建 样 本 数据 ， 以 说 明 Avro 的 跨 语 言 特性 。 
(1) 安装 rubygems 包 。 
$ sudo apt-get install rubygems 
(2) 安装 Avro gem。 
$ gem install avro 
(3) 将 下 列 代 码 保 存 为 generate .rb 文件 。 


require 'rubygems' 
require 'avro' 


file - File.open('sightings.avro', 'wb') 
schema = Avro::Schema.parse( 
File.open("ufo.avsc", "rb").read) 


writer = Avro::IO0::DatumWriter.new(schema) 
dw - Avro::DataFile::Writer.new(file, writer, schema) 


dw«« ("sighting date" => "2012-01-12", "city" -» "Boston", "shape" 
-» "diamond", "duration" -» 3.5) 

dw«« ("sighting date" => "2011-06-13", "city" -» "London", "shape" 
=> "light", "duration" => 13) 

dw<< {"sighting_date" => "1999-12-31", "city" => "New York", "shape" 


=> "light", "duration" => 0.25} 
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dw«« ("sighting date" => "2001-08-23", "city" -» "Las Vegas", 
"shape" => "cylinder", "duration" => 1.2) 

dw«« ("sighting date" -» "1975-11-09", "city" -» "Miami", 
"duration" => 5j 

dw«« ("sighting date" => "2003-02-27", "city" => "Paris", "shape" 
=> "light", "duration" => 0.5} 

dw<< {"sighting_date" => "2007-04-12", "city" => "Dallas", "shape" 
=> "diamond", "duration" => 3.5} 

dw<< {"sighting_date" => "2009-10-10", "city" => "Milan", "shape" 
=> "formation", "duration" => 0} 

dw<< {"sighting_date" => "2012-04-10", "city" => "Amsterdam", 
"shape" => "blur", "duration" => 6} 

dw<< {"sighting_date" => "2006-06-15", "city" => "Minneapolis", 
"shape" => "saucer", "duration" => 0.25} 

dw.close 


(4) 运行 generate.rb 创 建 数据 文件 。 


$ ruby generate.rb 


原理 分 析 


在 使 用 Ruby 之 前 , 要 保证 已 在 Ubuntu 主 机 上 安装 了 rupygems 包 。 随后 , 我 们 为 Ruby 安 装 它 
要 用 到 的 Avro gem ,该 文件 早已 存在 ,上述 操作 提供 了 使 用 Ruby 语 言 读 写 Avro 文 件 需 要 的 代码 库 。 

generate.rb 脚 本 仅 负 责 读 入 之 前 定义 的 模式 , 并 生成 一 个 包含 10 条 测试 记录 的 数据 文件 。 
接着 ， 我 们 运行 该 脚本 生成 测试 数据 。 


本 节 内 容 不 会 讲解 Ruby 的 使 用 ， 因 此 读者 需要 自行 分 析 程 序 中 用 到 的 Ruby API。 相 应 的 文 
档 参 见 http://rubygems.org/gems/avro。 








5.15 ”实践 环节 : 使 用 Java 语言 编程 操作 Avro 数据 
既然 上 一 节 已 经 生成 了 Avro 数据 ， 接 下 来 ， 编 写 Java 程 序 对 这 些 数据 进行 操作 。 


(1) 把 下 列 代码 保存 为 InputRead.Jjava 文 件 。 


import java.io.File; 
import java.io.IOException; 


import org.apache.avro.file.DataFileReader; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro. generic.GenericDatumReader; 
import org.apache.avro.generic.GenericRecord; 
import org.apache.avro.io.DatumReader; 


public class InputRead 
{ 


public static void main(String[] args) throws IOException 
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String filename = args[0] ; 


File file-new File(filename) ; 
DatumReader«GenericRecord» reader- new 
GenericDatumReader«GenericRecord»(); 
DataFileReader«GenericRecord»dataFileReader-new 
DataFileReader«GenericRecord» (file,reader); 


while (dataFileReader.hasNext()) 

t 
GenericRecord result-dataFileReader.next(); 

String output = String.format("$s $s $s $f", 

result.get("sighting date"), result.get("city") 
result.get("shape"), result.get("duration")) ; 
System.out.println(output) ; 

} 


a 


} 


(2) 编译 并 运行 InputRead.java。 





$ javacInputRead.java 
$ java InputReadsightings.avro 


输出 结果 应 当 如 下 图 所 示 。 


ir lle] 


File Edit View Terminal Help 








|» 


hadoopavml6:-/avro$ javac InputRead.java 
hadoopüvml6:-/avro$ java InputRead sightings.avro 
2012-01-12 Boston diamond 3.500000 
2011-06-13 London light 13.000000 
1999-12-31 New York light 0.250000 
2001-08-23 Las Vegas cylinder 1.200000 
1975-11-09 Miami null 5.000000 
2003-02-27 Paris light 0.500000 
2007-04-12 Dallas diamond 3.500000 
2009-10-10 Milan formation 0.000000 
2012-04-10 Amsterdam blur 6.000000 
2006-06-15 Minneapolis saucer 0.250000 
hadoop@vm16: ~/avrog | | 
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原理 分 析 

我 们 定义 了 Java 类 InputRead， 它 通过 命令 行 参数 接收 待 处 理 的 文件 名 ， 并 把 该 文件 当做 
Avro 数据 文件 进行 解析 。Avro 从 数据 文件 读 取 的 每 个 元 素 被 称 为 datum， 每 个 datum 都 遵循 数据 模 
式 定义 的 数据 结构 。 

本 例 中 ,我 们 没有 使 用 明确 的 模式 ,而 是 把 每 个 datum 读 人 GenericRecord 类 ,并 使 用 字段 
名 从 中 提取 各 个 字段 的 值 。 

Avro 中 的 GenericRecord 类 非常 灵活 ， 它 可 被 用 于 封装 任何 数据 结构 ， 比 如 示例 中 用 到 的 
UFO-sighting 类 型 。Avro 也 支持 原生 类 型 ， 如 整 型 、 浮 点 型 、 布 尔 型 ， 以 及 其 他 结构 类 型 ， 如 数 
组 和 枚 举 。 在 这 些 例子 中 ， 我 们 将 记录 用 作 最 常用 的 结构 ， 但 这 只 是 为 了 方便 。 


在 MapReduce 中 使 用 Avro 




































































Avro 对 MapReduce 的 支持 主要 体现 在 ，Avro 对 若干 个 常见 类 进行 了 改写 , 实现 了 Avro 特有 变 
种 。 我 们 通常 希望 ，Hadoop 通 过 改写 InputFormat 和 OutputFormat 类 实现 对 新 数据 文件 格式 
的 支持 。 我 们 将 使 用 AvroJob 、AvroMapper 和 AvroReducer 代 蔡 非 Avro 版 本 的 类 。AvroJob 和 希望 
使 用 Avro 数据 文件 作为 输入 和 输出 ， 所 以 我 们 使 用 输入 和 输出 的 Avro 数据 模式 对 AvroJob 进 行 配 
置 ， 而 不 再 指定 输入 和 输出 数据 的 格式 类 型 。 


AvroMapper, 、AvroReducer 与 通用 mapper 、reducer 的 主要 区 别 在 于 使 用 的 数据 类 型 。 默 认 情 
况 下 ，Avro 的 输入 输出 是 单一 的 ， 而 Mapper 和 Reducer 类 要 求 使 用 键 值 对 作为 输入 输出 类 型 。 
为 此 ，Avro 引 入 了 Pair 类 ， 该 类 通常 用 于 输出 处 理 过 程 中 产生 的 临时 键 值 数据 。 


Avro 还 支持 AvroKey 和 AvroValue， 它 们 可 以 封装 其 他 数据 类 型 ， 但 是 下 面 示例 中 没有 用 到 
这 两 个 类 型 。 







































































5.16 ”实践 环节 : 在 MapReduce 中 统计 UFO 形状 


本 节 ， 我 们 将 编写 一 个 mapper， 它 以 前 面 定 义 好 的 UFO 目 击 事件 记录 为 输入 。 它 会 输出 相应 
的 UFO 形 状 和 值 1，reducer 会 利用 mapper 的 输出 生成 一 个 新 的 Avro 数据 类 型 ， 它 包括 了 每 个 UFO 
形状 出 现 的 次 数 。 执 行 下 列 步 骤 完 成 该 任务 。 

(1) 把 sightings .avro 文 件 描 贝 到 HDFS 。 


$ hadoopfs -mkdiravroin 
$ hadoopfs -put sightings.avroavroin/sightings.avro 


(2) 把 下 列 代码 保存 为 AvroMR.Jjava 文 件 。 


import java.io.IOException; 
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import org.apache.avro.Schema; 

import org.apache.avro.generic.*; 
import org.apache.avro.Schema.Type; 
import org.apache.avro.mapred.*; 

import org.apache.avro.reflect.ReflectData; 
import org.apache.avro.util.Utf8; 
import org.apache.hadoop.conf.*; 

import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.mapred.*; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.io.* ; 

import org.apache.hadoop.util.*; 


// 定 义 输出 记录 的 数据 结构 
class UFORecord 


{ 
UFORecord() 
{ 
} 
public String shape ; 
public long count ; 
} 
public class AvroMR extends Configured implements Tool 


{ 
// 创建 map 输 出 的 模式 

public static final Schema PAIR SCHEMA = 
Pair.getPairSchema (Schema.create(Schema.Type.STRING), 
Schema.create(Schema.Type.LONG)); 
// 创建 reduce 输 出 的 模式 

public final static Schema OUTPUT SCHEMA = 
ReflectData.get().getSchema (UFORecord.class); 


GOverride 
public int run(String[] args) throws Exception 
{ 

JobConfconf = new JobConf(getConf(), getClass()); 


conf.setJobName("UFO count"); 


String[] otherArgs - new GenericOptionsParser(conf, args). 


getRemainingArgs(); 
if (otherArgs.length !- 2) 
{ 


System.err.println("Usage: avro UFO counter «in»«out»"); 
System.exit(2); 


FileInputFormat.addInputPath(conf, new Path(otherArgs[0])); 
Path outputPath = new Path(otherArgs[1]); 
FileOutputFormat.setOutputPath(conf, outputPath); 
outputPath.getFileSystem(conf).delete(outputPath); 
Schema input schema - 
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Schema.parse(getClass().getResourceAsStream("ufo.avsc")); 
AvroJob.setInputSchema (conf, input schema); 
AvroJob.setMapOutputSchema (conf, 
Pair.getPairSchema(Schema.create(Schema.Type.STRING), 
Schema.create(Schema.Type.LONG))); 


AvroJob.setOutputSchema (conf, OUTPUT SCHEMA); 
AvroJob.setMapperClass(conf, AvroRecordMapper.class); 
AvroJob.setReducerClass(conf, AvroRecordReducer.class); 
conf.setInputFormat(AvrolnputFormat.class) ; 
JobClient.runJob(conf); 


return 0 ; 


public static class AvroRecordMapper extends 
AvroMapper«GenericRecord, Pair«Utf8, Long»» 
{ 
@Override 
public void map(GenericRecord in, AvroCollector«Pair«Utf8, 
Long»» collector, Reporter reporter) throws IOException 


{ 
Pair«Utf8,Long» p = new Pair<Utf8,Long>(PAIR SCHEMA) ; 
Utf8 shape = (Utf8)in.get ("shape") ; 
if (shape != null) 
{ 


p.set (shape, 1L) ; 
collector.collect(p); 


) 


public static class AvroRecordReducer extends 
AvroReducer«Utf8, 
Long, GenericRecord» 


{ 


public void reduce (Utf8 key, Iterable<Long> values, 
AvroCollector<GenericRecord> collector, 
Reporter reporter) throws IOException 


long sum = 0; 
for (Long val : values) 


{ 


sum += val; 


GenericRecord value = new 
GenericData.Record (OUTPUT_ SCHEMA); 


value.put("shape", key); 
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value.put("count", sum); 


collector.collect (value); 
} 
} 


public static void main(String[] args) throws Exception 
{ 
int res = ToolRunner.run (new Configuration(), new AvroMR(), 
args); 
System.exit (res); 
} 
} 


(3) 编译 并 运行 作业 。 
$ javacAvroMR.java 


$ jar -cvfavroufo.jar *.class ufo.avsc 
$ hadoop jar -/classes/avroufo.jarAvroMRavroinavroout 


(4) 检查 输出 路 径 。 





$ hadoopfs -lsavroout 
Found 3 items 


-rw-r--r-- 1 . /user/hadoop/avroout/ SUCCESS 
drwxr-xr-x - hadoopsupergroup 0 .. /user/hadoop/ 
avroout/ logs 

-rw-r--r-- A au /user/hadoop/avroout/part-00000.avro 


(5) 把 输出 文件 拷贝 到 本 地 文件 系统 。 


$ hadoopfs -get /user/hadoop/avroout/part-00000.avroresult.avro 


原理 分 析 


我 们 创建 了 Job 类 并 检查 其 各 个 组 件 , 实际 上 ， mapper 和 reducer 类 的 逻辑 很 简单 : mapper 
类 只 是 从 shape 字 段 提取 相应 值 并 输出 ， 同 时 输出 值 1; 然后 ，reducer 统 计 每 个 UFO 形 状 出 现 的 总 
次 数 。 我 们 关注 的 是 ， 为 Mapper 和 Reducezr 定 义 的 输入 输出 类 型 ， 以 及 作业 的 配置 方式 。 


Mapper 类 的 输入 类 型 为 CenericRecord， 输 出 类 型 为 Pair。 相 应 地 ，Reqducer 类 的 输入 
类 型 为 Pair， 输 出 类 型 为 GenericRecord。 


传 给 Mapper 类 的 GenericRecord 类 对 datum ( 输入 文件 中 的 UFO 目 击 事件 记录 ) 进行 了 封 
装 。 这 就 是 Mapper 类 能 够 通过 Shape 字 段 名 获取 对 应 值 的 原因 。 


回忆 一 下 ,创建 GenericRecords 时 ， 可 以 明确 地 或 隐 舍 地 指定 数据 模式 。 这 两 种 情况 下 ， 
都 可 以 将 数据 模式 编码 在 数据 文件 中 。 对 于 Reducer 类 用 到 的 GenericRecords 输 出 , 我 们 通过 
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其 他 方式 为 其 创建 了 一 个 模式 。 


在 上 述 代 码 中 ,我 们 创建 了 UFoRecora 类 ， 并 在 其 运行 时 使 用 Avro 反射 动态 生成 模式 。 之 
后 ， 我 们 可 以 使 用 该 模式 创建 GenericRecord 类 ， 该 类 专门 用 于 封装 那 种 特定 的 数据 类 型 。 








我 们 使 用 Avro Pair 类 型 在 Mapper 和 Reducer 之 间 存 储 键 值 对 。 这 样 ，Mapper 和 Reducer 
类 实现 的 逻辑 与 第 2 章 中 的 WordCount 程 序 的 逻辑 完全 相同 : Mapper 类 输出 每 个 形状 的 出 现 次 数 ， 
Reducer 类 累加 每 个 形状 的 出 现 次 数 作为 最 终 输出 。 


除 Mapper 和 Reducer 类 的 输入 输出 外 ， 还 要 对 人 处理 Avro 数 据 的 作业 进行 一 些 独特 的 配置 。 


Schema input schema = Schema.parse(getClass(). 
getResourceAsStream("ufo.avsc")) ; 

AvroJob.setInputSchema (conf, input schema); 
AvroJob.setMapOutputSchema (conf, Pair.getPairSchema (Schema. 
create(Schema.Type.STRING), Schema.create(Schema.Type.LONG))); 








AvroJob.setOutputSchema (conf, OUTPUT SCHEMA); 
AvroJob.setMapperClass(conf, AvroRecordMapper.class); 
AvroJob.setReducerClass(conf, AvroRecordReducer.class); 


这 些 配置 元 素 说 明了 模式 对 Avro 的 重要 性 。 尽 管 不 定义 模式 也 可 完成 数据 处 理 任务 , 我 们 必 
须 设置 输入 输出 数据 的 模式 类 型 。Avro 会 验证 输入 输出 数据 是 否 与 指定 的 模式 相 吻合 , 这 在 某 种 
程度 上 也 保证 了 数据 类 型 安全 。 对 其 他 配置 元 素 ， 比 如 Mapper 和 Reducez 的 配置 选项 ， 我 们 通 
过 AvroJob 类 而 非 通用 Job 类 进行 设置 。 设 置 完成 后 ，MapReduce 框 架 会 根据 这 些 设置 执行 作业 。 


























本 例 也 是 我 们 首次 明确 实现 Tool 接 口 。 在 运行 Hadoop 命 令 行 程序 时 ， 有 一 系列 参数 ( 比如 
-D) 对 多 个 子 命令 是 通用 的 。 假 如 作业 类 像 上 节 提 到 的 那样 实现 了 Tool 接 口 ， 它 会 自动 访问 通 
过 命令 行 传人 的 标准 参数 。 这 个 方法 可 有 效 避 免 不 少 代码 重复 。 






































5.17 ”实践 环节 : 使 用 Ruby 检查 输出 数据 
既然 作业 已 生成 了 输出 数据 ,我们 将 使 用 Ruby 检 查 这 些 输出 数据 。 
(D 将 下 列 代码 保存 为 read .rb 文件 。 


require 'rubygems' 
require 'avro' 


file = File.open('res.avro', 'rb') 
reader = Avro::I0::DatumReader.new() 
dr - Avro::DataFile::Reader.new(file, reader) 


dr.each (|record| 
print record["shape"]," ",record["count"],"An" 
} 


dr.close 
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(2) 检查 作业 输出 的 结果 文件 。 


$ ruby read.rb 
blur 1 
cylinder 1 
diamond 2 
formation 1 
light 3 

saucer 1 


原理 分 析 


和 以 前 一 样 , 我 们 不 会 分 析 Ruby 的 Avro API 示例 程序 创建 了 一 个 打开 Avro 数据 文件 的 Ruby 
脚本 ， 循 环 读 取 每 个 datum 并 基于 明确 的 字段 名 输出 结果 。 请 注意 ， 该 脚本 没有 访问 数据 文件 的 
模式 ， 数 据 文件 头 部 提供 的 信息 足以 满足 Ruby 脚 本 获取 各 个 字段 的 需要 。 
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为 了 证 明 可 使 用 多 种 语言 访问 Avro 数据 ， 我 们 将 使 用 Java 语 言 显 示 作 业 输 出 。 
(1) 将 下 列 代码 保存 为 OutputRead.java 文 件 。 


import java.io.File; 

import java.io.IOException; 

import org.apache.avro.file.DataFileReader; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro. generic.GenericDatumReader; 





import org.apache.avro.generic.GenericRecord; 
import org.apache.avro.io.DatumReader; 


public class OutputRead 
t 


public static void main(String[] args) throws IOException 


{ 


String filename = args[0] ; 


File file=new File(filename) ; 
DatumReader<GenericRecord> reader= new 
GenericDatumReader«GenericRecord»(); 
DataFileReader«GenericRecord»dataFileReader-new 
DataFileReader«GenericRecord» (file,reader); 


while (dataFileReader.hasNext()) 
{ 
GenericRecord result-dataFileReader.next(); 
String output = String.format("$s £d", 
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result.get("shape"), result.get("count")) ; 
System.out.println(output) ; 
} 
} 
} 


(2) 编译 并 运行 程序 。 


$ javacOutputResult.java 

$ java OutputResultresult.avro 
blur 1 

cylinder 1 

diamond 2 

formation 1 

light 3 

saucer 1 


原理 分 析 


我 们 加 入 该 示例 的 目的 是 说 明 可 使 用 多 种 语言 读 取 Avro 数 据 。 上 述 代码 与 之 前 讲 到 的 
InputRead 类 非常 相似 ,唯一 的 区 别 在 于 ,字段 名 用 于 展示 从 数据 文件 读 取 的 每 个 datum。 





一 展 身手 : Avro 对 图 的 支持 


前 面 曾 提 到 过 ， 我 们 努力 简化 GraphPath 类 中 图 的 表示 方法 。 但 扁平 的 文本 行 与 图 对 象 
之 间 存 在 映射 关系 ， 维 护 它 们 之 间 的 转换 需要 一 定 的 开销 。 





由 于 Avro 支持 复杂 类 型 的 骨 套 ， 它 天 生 就 支持 以 更 接近 运行 时 对 象 的 方式 表示 节点 。 修 改 
GraphPath 类 作业 ， 从 表示 节点 的 datum 组 成 的 Avro 数据 文件 中 读 写 图 。 读 者 可 以 使 用 下 面 的 示 
例 模 式 ， 但 还 可 以 对 其 进行 改进 。 











( "type": "record", 
"name": "Graph representation", 
"fields" : [ 
("name": "node id", "type": "int"), 
("name": "neighbors", "type": "array", "items:"int" }, 
("name": "distance", "type": "int"), 
("name": "status", "type": "enum", 
"symbols": ["PENDING", "CURRENT", "DONE" 


继续 研究 Avro 


本 章 的 案例 研究 仅 提 到 了 Avro 的 部 分 特性 。 我 们 重点 介绍 了 Avro 作为 静态 数据 表示 方法 的 价 


5.19. 小结 137 





值 。 它 还 可 以 用 在 RPC (remote procedure call， 远 程 过 程 调用 ) 框架 中 ，Hadoop 2.0 可 以 选择 它 
作为 默认 的 RPC 格 式 。 我 们 没有 使 用 Avro 的 代码 生成 工具 ， 它 可 以 产生 特定 领域 的 API。 我 们 也 
没有 讨论 Avro 对 模式 演变 的 文 持 ， 比 如 ， 它 可 以 在 新 记录 中 加 入 新 字段 而 不 会 影响 老 datum 或 破 
坏 原 有 客户 。 这 种 技术 在 未 来 应 该 会 得 到 更 广泛 的 应 用 。 

















5.19 ”小结 


本 章 通过 3 个 案例 研究 ， 重 点 介绍 了 Hadoop 的 一 些 高 级 特性 及 其 广泛 的 生态 系统 。 我 们 特别 
讨论 了 不 同类 型 联结 的 本 质问 题 以 及 它们 在 Hadoop 的 哪个 阶段 出 现 , 如 何 相对 简单 却 又 高 效 地 实 
现 reduce 端 联结 ， 以 及 如 何 把 数据 送 进 Distributed Cache 避 免 map 端 的 完整 联结 。 


接着 ,我 们 学 习 了 如 何 实现 完整 的 map 端 联结 ,但 它 需 要 对 输入 数据 进行 大 量 处 理 。 如 果 经 
常 需要 进行 联结 操作 ， 应 当 研 究 其 他 工具 ， 比 如 Hive 和 Pig。 还 介绍 了 如 何 考 虑 像 图 这 样 的 复杂 
类 型 以 及 在 MapReduce 中 用 怎样 的 方法 表示 图 。 

我 们 还 学 习 了 将 图 算法 分 成 多 阶段 MapReduce 作 业 的 技术 ,语言 无 关 的 数据 类 型 的 重要 性 ， 
如 何 使 用 多 种 语言 操作 Avro 数据 ， 以 及 如 何 将 Avro 扩展 到 MapReduce API ( 它 允 许 使 用 结构 类 型 
作为 MapReduce 作 业 的 输入 输出 )。 


现在 ,我们 对 Hadoop MapReduce 编 程 的 介绍 就 结束 了 。 第 6 章 和 第 7 章 将 讨论 如 何 管理 Hadoop 
集群 以 及 如 何 扩展 其 规模 。 






































故障 处 理 











Hadoop 的 一 个 重要 特性 是 故障 恢复 能 力 , 本 章 将 重点 学 习 Hadoop 的 容错 
机 制 。 


本 章 包括 以 下 内 容 : 


口 Hadoop 如 何 处 理 DataNode 和 TaskTracker 的 故障 ; 
口 Hadoop 如 何 处 理 NameNode 和 JobTracker 的 故障 ; 
口 硬件 故障 对 Hadoop 的 影响 ; 

口 如 何 处 理由 软件 缺陷 引发 的 任务 故障 ; 

口 错误 数据 如 何 引发 任务 故障 以 及 应 对 方法 。 


同时 ， 我 们 将 更 深入 地 理解 Hadoop 的 各 个 部 件 是 如 何 协同 工作 的 ， 并 通过 实践 发 现 一 些 好 
的 做 法 。 








6.1 故障 


在 许多 技术 领域 中 , 很 少见 到 技术 文档 会 用 大 量 篇 幅 来 介绍 故障 处 理 方法 。 通 常 ， 人 们 认为 
只 有 技术 专家 才 会 对 故障 处 理 技术 感 兴趣 。 在 Hadoop 中 , 故障 处 理 的 位 置 更 靠 前 而 且 是 一 个 核心 
问题 。Hadoop 架 构 及 设计 的 前 提 ， 就 是 作业 执行 过 程 中 会 经 常 发 生 故 障 ， 并 且 故 障 在 所 难免 。 








6.1.1 拥抱 故障 

近年 来 ， 与 传统 的 害怕 发 生 故 障 的 心态 不 同 ， 出 现 了 一 种 被 称 为 “拥抱 故障 ”的 全 新 理念 。 
之 前 人 们 寄 希 望 于 不 发 生 故 障 , 现在 则 是 接受 故障 是 无 法 避免 的 事实 , 并 知道 故障 发 生 时 系统 和 
流程 应 如 何 应 对 。 
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6.4.2. 至少 不 怕 出 现 故 障 

这 是 一 种 理念 上 的 延伸 ， 因 此 ， 本 章 目的 在 于 让 读者 明白 如 何 应 对 Hadoop 系 统 中 的 各 类 故 
障 , 不 至 于 在 发 生 故 障 时 手足 无 措 。 我 们 将 通过 杀 死 正在 运行 的 群集 中 的 进程 ,故意 造成 软件 失 
败 ， 向 作业 推送 错误 数据 等 多 种 方式 尽 可 能 制造 破坏 。 














6.1.3 ”严禁 模仿 


通常 , 由 于 测试 实例 被 滥用 , 业务 系统 已 对 其 进行 了 防范 , 因此 并 不 会 对 业务 系统 造成 破坏 。 
但 是 , 我 们 仍 不 主张 对 运行 中 的 Hadoop 集 群 实施 本 章 给 出 的 破坏 实例 , 尽管 除了 一 两 个 非常 特殊 
的 案例 , 其 他 的 都 没有 危险 ,我们 的 目标 是 了 解 各 类 故障 的 影响 , 以 便 关 键 业 务 系统 发 生 故 障 时 ， 
清楚 地 知道 这 是 不 是 一 个 问题 。 幸 运 的 是 ，Hadoop 可 以 为 我 们 处 理 大 部 分 故障 。 




















6.1.4 故障 类 型 
我 们 通常 将 故障 划分 为 以 下 5 类 。 


口 节点 故障 ， 也 就 是 DataNode 或 TaskTracker 进 程 的 故障 。 

口 集群 主 节 点 的 故障 ， 也 就 是 NameNode 或 JobTracker 进 程 的 故障 。 
口 硬件 故障 ， 包 括 主机 骨 演 、 硬 盘 故 障 等 。 

口 MapReduce 作 业 中 由 软件 错误 引发 的 个 别 任务 故障 。 

口 MapReduce 作 业 中 由 数据 问题 引发 的 个 别 任务 故障 。 


我 们 将 会 在 下 面 各 节 中 依次 讲解 各 种 情况 。 





















































6.1.5 Hadoop 节点 故障 


我 们 将 探讨 的 第 一 类 故障 是 , 个 别 DataNode 或 TaskTracker 进 程 意外 终止 引发 的 故障 。Hadoop 
声称 通过 解决 硬件 故障 保证 系统 可 用 性 , 我们 认为 有 理由 相信 这 个 说 法 。 确 实 ， 随 着 集群 规模 增 
长 到 成 百 上 千 台 主机 ,个 别 节点 发 生 故 障 的 可 能 性 相当 普遍 。 


在 杀 死 进程 之 前 ， 我 们 将 介绍 一 款 新 工具 ， 并 正确 设置 群集 。 




















1. afsadmin 命 令 
dfsadmin 命 令 行 工具 可 以 代替 HDFS 网 页 用 户 接口 ， 查 看 集群 的 工作 状态 。 其 用 法 如 下 : 
$ Hadoop dfsadmin 


上 述 命令 会 列 出 afsadqmin 命 令 的 多 个 选项 。 为 了 查看 集群 状态 ， 我 们 使 用 -report 选 项 。 
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该 命令 给 出 了 集群 整体 状态 的 概述 , 包括 额定 容量 、 节 点 数 、 文 件数 和 每 个 节点 的 具体 配置 细节 。 
2. 集群 设置 、 测 试 文件 和 数据 块 大 小 


后 续 实践 需要 一 个 全 分 布 式 的 集群 ， 装 步骤 参见 本 书 前 述 内 容 。 该 集群 中 使 用 1 台 主 机 
作为 JobTracker 和 NameNode， 其 他 4 台 运行 DataNode 和 TaskTracker 进 程 。 








请 注意 ,无 需 为 每 个 节点 配套 物理 硬件 ,我 们 使 用 虚拟 机 组 建 Hadoop 集 群 。 








正常 情况 下 ，Hadoop 集 群 的 数据 块 大 小 通常 设 为 64 MB。 但 该 配置 并 不 适合 用 于 测试 ， 因 为 
要 将 文件 切 分 成 多 份 分 布 在 多 点 集群 上 ， 需 要 特别 大 的 文件 才 行 。 


这 就 需要 我 们 在 配置 时 减 小 数据 块 大 小 。 既 然 这 样 ， 我 们 将 数据 块 大 小 配置 为 4 MB。 请 对 
Hadoop conf 目 录 下 的 hafs-site.xml 进 行 如 下 修改 。 








«property» 

«name»dfs.block.size«/name» 
«value»4194304«/value» 

;i«/property» 

«property» 
«name»dfs.namenode.logging.level«/name» 
«value»all«/value» 

</property> 


第 一 个 属性 修改 的 是 数据 块 大 小 ， 第 二 个 属性 提升 了 NameNode 的 日 志 级 别 ， 因 此 一 些 对 数 
据 块 的 操作 也 会 出 现在 日 志文 件 中 。 














对 本 次 测试 而 言 , 所 有 这 些 设置 都 恰到好处 ; 但 它们 很 少 用 在 产品 集群 的 配 

Co 置 中 。 尽 管 在 调查 非常 难 的 问题 时 ， 可 能 需要 调 高 NameNode 的 日 志 级 别 ， 但 是 

S 绝对 不 可 能 将 数据 块 设 为 4 MB 这 么 小 。 虽 然 Hadoop 可 处 理 较 小 的 数据 块 ， 但 是 
小 数据 块 会 影响 Hadoop 的 运行 效率 。 


我 们 还 需要 一 个 大 小 适中 的 测试 文件 ， 它 需要 被 切 分 为 多 个 4 MB 大 小 的 数据 块 。 实 际 上 ， 
我 们 不 会 用 到 该 文件 的 内 容 ， 所 以 文件 类 型 在 这 里 并 不 重要 。 但 是 , 为 了 给 后 几 节 提供 便利 , 你 
应 该 把 手头 上 最 大 的 文件 复制 到 HDFS。 此 处 ， 我 们 使 用 了 一 个 CD ISO 喘 像 文件 。 











$ Hadoop fs -put cd.iso filel.data 
3. Elastic MapReduce 的 容错 机 制 
为 了 更 明确 地 介绍 故障 细节 ， 本 书 使 用 本 地 Hadoop 集 群 作为 例子 。EMR 的 容错 机 制 与 本 地 
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集群 完全 相同 ， 因 此 这 里 讲 到 的 故障 情景 既 适 用 于 本 地 Hadoop 集 群 也 适用 于 EMR 托 管 的 集群 。 











6.2 ”实践 环节 : 杀 死 DataNode 进程 


首先 ， 杀 掉 一 个 DataNode 进 程 。 回 忆 一 下 ，HDFS 集 群 的 每 台 主 机 都 运行 着 一 个 DataNode 进 
程 ， 它 负责 管理 HDFS 文 件 系统 的 数据 块 。 默 认 情 况 下 ，Hadoop 中 数据 块 的 复制 因子 为 3， 因 此 ， 
我 们 希望 单个 DataNode 的 故障 不 会 直接 影响 到 Hadoop 的 可 用 性 。 当 然 ， 单 个 DataNode 的 故障 会 
导致 某 些 数据 块 的 副本 数量 暂时 小 于 复制 因子 门限 值 。 执 行 下 列 步 骤 杀 死 DataNode 进 程 。 


(1) 首先 ,查看 集群 的 原始 状态 并 检查 所 有 部 件 是 否 正 常 工作 。 使 用 afsadmin 命 令 实 现 这 个 
目的 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 81376493568 (75.79 GB) 
Present Capacity: 61117323920 (56.92 GB) 
DFS Remaining: 59576766464 (55.49 GB) 

DFS Used: 1540557456 (1.43 GB) 

DFS Used*: 2.52% 

Under replicated blocks: 0 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 4 (4 total, 0 dead) 





Name: 10.0.0.102:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 403606906 (384.91 MB) 

Non DFS Used: 5063119494 (4.72 GB) 

DFS Remaining: 14877396992(13.86 GB) 

DFS Used%: 1.98% 

DFS Remaining%: 73.13% 

Last contact: Sun Dec 04 15:16:27 PST 2011 


现在 登录 到 其 中 一 个 节点 ， 使 用 jps 命 令 查看 DataNode 进 程 的 进程 ID: 
$ jps 
2085 TaskTracker 
2109 Jps 
1928 DataNode 
(2) 4& ll] DataNodef process ID ( PID ) 杀 死 进程 。 
$ kill -9 1928 
(3) 检查 DataNode 进 程 是 否 仍 在 运行 


$ jps 
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2085 TaskTracker 
(4) 再 次 使 用 dfsadmin 命 令 查 看 集群 状态 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 81376493568 (75.79 GB) 
Present Capacity: 61117323920 (56.92 GB) 
DFS Remaining: 59576766464 (55.49 GB) 

DFS Used: 1540557456 (1.43 GB) 

DFS Used%: 2.52% 

Under replicated blocks: 0 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 4 (4 total, 0 dead) 


(5) 要 重点 关注 包含 每 个 节点 的 数据 块 数量 、 活 跃 节点 数 和 最 后 通信 时 间 的 行 。 死亡 节点 的 
最 后 通信 时 间距 现在 差不多 10 分 钟 的 时 候 ， 经 常 使 用 $ Hadoop dfsadmin -report 查 
看 集群 状态 ， 直 到 数据 块 的 数量 和 活跃 节点 数 发 生变 化 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 61032370176 (56.84 GB) 
Present Capacity: 46030327050 (42.87 GB) 
DFS Remaining: 44520288256 (41.46 GB) 

DFS Used: 1510038794 (1.41 GB) 

DFS Used*: 3.28% 

Under replicated blocks: 12 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 3 (4 total, 1 dead) 


(6) 重复 上 述 过 程 ， 直 到 再 次 输出 “Under replicated blocks: 0". 


$ Hadoop dfsadmin -report 


Under replicated blocks: 0 
Blocks with corrupt replicas: O0 
Missing blocks: 0 


Datanodes available: 3 (4 total, 1 dead) 


原理 分 析 


从 较 高 的 视角 来 看 ， 似 乎 并 无 难 解 之 处 。Hadoop 确 认 
该 问题 。 但 是 ， 为 了 解决 该 问题 ，Hadoop 做 了 大 量 工作 。 


Tr 





群 中 少 了 一 个 节点 并 开展 工作 解决 
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当 我 们 杀 死 Datanode 进 程 时 ， 该 主机 上 的 进程 已 经 不 再 提供 服务 或 接收 数据 块 进 行 读 / 写 操 
作 。 但 是 ， 当 时 我 们 并 没有 访问 文件 系统 ， 那 么 NameNode 进 程 是 怎么 知道 某 个 特定 的 DataNode 
已 经 无 法 提供 服务 了 呢 ? 











NameNode 和 DataNode 之 间 的 通信 


答案 是 NameNode 和 Datanode 进 程 之 间 保 持 着 频繁 通信 。 虽 然 我 们 曾经 提 到 过 一 两 次 它们 之 
间 的 通信 ， 却 从 来 没有 详细 地 解释 。 这 个 过 程 由 DataNode 发 出 的 一 系列 固定 心跳 消息 完成 , 这些 
消息 向 NameNode 报 告 其 当前 状态 及 保存 的 数据 块 。 作 为 回应 ，NameNode 向 DataNode 发 出 指令 ， 
如 通知 DataNode 新 建 一 个 文件 或 命令 它 从 另 一 节点 获取 数据 块 。 


当 NameNode 进 程 启动 起 来 并 开始 接收 DataNode 的 状态 信息 时 ， 整 个 通信 过 程 就 已 经 开始 。 
回想 一 下 ， 每 个 DataNode 知 道 其 NameNode 的 位 置 ， 并 不 断 向 其 发 送 状态 报告 。 这 些 消息 列 出 了 
各 个 DataNode 保 存 的 数据 块 。 基 于 这 些 信息 ，NameNode 能 够 在 数据 块 和 文件 、 路 径 之 间 建 立 完 
整 映 射 ， 这 样 NameNode 就 会 知道 文件 由 哪些 数据 块 组 成 以 及 这 些 数据 块 存放 在 哪些 节点 之 上 。 


NameNode 进 程 对 每 个 DataNode 最 后 一 次 发 送 心跳 信息 的 时 间 进 行 监测 ， 一 旦 该 时 间 超 过 门 
限 值 之 后 ，NameNode 就 会 认定 某 个 DataNode 无 法 继续 使 用 ， 并 将 其 标记 为 dead。 


























DataNode 被 认定 为 dead 的 准确 门限 值 并 不 是 HDFS 的 一 个 可 配置 属性 。 相 反 ， 

它 是 通过 其 他 几 个 属性 计算 得 出 的 ,比如 心跳 间隔 属性 在 该 值 的 计算 中 起 决定 作 

S 用 。 稍 后 我 们 会 看 到 ,MapReduce 的 对 应 属性 值 的 确定 稍微 简单 一 些 , TaskTracker 
的 超时 时 间 由 一 个 配置 属性 所 控制 。 


一 旦 某 个 DataNode 被 标记 为 死亡 节点 ，NameNode 进 程 会 确定 哪些 数据 块 存储 在 该 节点 上 ， 
这 些 数据 块 的 副本 数 已 跌 破 其 复制 因子 。 在 默认 情况 下 ， 被 杀 死 节点 上 存储 的 数据 块 是 3 个 副本 
中 的 一 个 ， 所 以 该 节点 存储 的 数据 块 在 集群 中 只 剩 有 2 个 副本 。 


在 前 面 例子 中 , 我 们 发 现 有 12 个 数据 块 的 副本 数量 小 于 其 复制 因子 , 也 就 是 说 , 这些 数据 块 
在 整个 集群 中 的 副本 数量 无 法 达到 其 目标 数量 。 当 NameNode 进 程 明 确 了 副本 数 过 低 的 数据 块 后 ， 
它 分 配 其 他 DataNode 从 现 有 副本 驻 留 主机 复制 这 些 数据 块 。 在 这 种 情况 下 , 需要 重新 复制 的 数据 
块 的 数量 很 少 。 在 活跃 集群 中 ， 一 个 节点 的 故障 会 导致 一 段 时 间 的 高 网 络 流量 ， 因 为 NameNode 
会 安排 其 他 节点 重新 复制 死亡 节点 存储 的 数据 块 。 


需要 注意 的 是 , 如 果 出 现 故 障 的 节点 重新 恢复 正常 运行 , 该 节点 存储 的 数据 块 在 集群 中 的 副 
本 数量 可 能 超过 所 需 数量 。 在 这 种 情况 下 ，NameNode 进 程 会 发 出 指令 ， 要 求 删 除 多 余 副 本 。 系 
统 随机 选择 要 删除 的 副本 ,因此 ,可 能 会 出 现 恢复 正常 运行 的 节点 保留 了 部 分 数据 块 ， 却 删 掉 了 
其 他 数据 块 的 情况 。 
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一 展 身手 : 深入 研究 NameNode 的 日 志 


我 们 已 配置 NameNode 进 程 记 录 其 所 有 活动 。 浏 览 这 些 非常 详细 的 日 志 ， 并 试 着 从 中 找 出 
NameNode 向 DataNode 发 出 的 复制 要 求 。 











最 终 输出 显示 了 将 副本 数量 不 足 的 数据 块 复制 到 活路 节点 后 的 集群 状态 ,集群 的 活跃 节点 数 
下 降 到 3 个 ,但 是 所 有 的 数据 块 都 达到 了 其 复制 因子 的 要 求 。 





M 使 用 start-al1.sh 脚 本 可 快速 重启 所 有 主机 中 的 死亡 节点 。 该 脚本 在 启动 
Q 所 有 部 件 之 前 ， 会 智能 检测 正在 运行 的 服务 ， 这 就 意味 着 ， 它 会 重启 死亡 节点 
却 不 会 对 活跃 节点 产生 影响 。 


6.3 ”实践 环节 : 复制 因子 的 作用 


本 节 将 重复 杀 死 进程 的 步骤 , 但 这 次 ， 要 在 由 4 个 节点 组 成 的 集群 中 杀 死 2 个 DataNode。 我 们 
仅 会 简略 描述 这 个 过 程 ， 因 为 它 与 上 一 个 实践 环节 的 步骤 非常 相似 。 


(1) 重启 死亡 节点 并 监测 集群 状态 ， 直 到 所 有 节点 都 被 标记 为 活跃 节点 。 
(2) 选择 其 中 2 个 DataNode， 使 用 其 进程 ID 杀 掉 相应 进程 。 


(3) 和 上 一 个 实践 环节 的 操作 类 似 , 等 候 大 约 10 分 钟 之 后 ,通过 dfsadmin 命 令 查看 集群 状态 ， 
特别 要 关注 副本 数量 低 于 复制 因子 的 数据 块 的 数量 。 


(4) 等 到 集群 状态 稳定 之 后 ， 给 出 以 下 内 容 。 


Configured Capacity: 61032370176 (56.84 GB) 
Present Capacity: 45842373555 (42.69 GB) 
DFS Remaining: 44294680576 (41.25 GB) 

DFS Used: 1547692979 (1.44 GB) 

DFS Used*: 3.38% 

Under replicated blocks: 125 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 2 (4 total, 2 dead) 


原理 分 析 
这 个 过 程 与 上 一 个 “实践 环节 ”的 过 程 相同 。 区 别 在 于 , 由 两 个 DataNode 发 生 故 障 引起 的 副 
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本 数量 小 于 复制 因子 的 数据 块 明 显 增多 ， 多 个 数据 块 的 副本 数量 降 为 1。 因 此 ， 读 者 会 看 到 ， 由 
于 多 个 节点 故障 造成 “Under replicated blocks” 的 值 明显 增 大 ， 之 后 随 着 重新 复制 过 程 的 进行 ， 
“Under replicated blocks” 的 值 逐 步 下 降 。 这 些 活 动 也 可 以 从 NameNode 节 点 的 日 志 看 出 。 


需要 注意 的 是 ， 虽 然 Hadoop 可 以 通过 重新 复制 策略 将 只 剩 一 个 副本 的 数据 块 复制 为 两 个 副 
本 ， 但 这 些 数据 块 的 数量 仍 处 于 underreplicated 状 态 。 由 于 集群 中 只 有 两 个 活跃 节点 ， 任 何 数据 
块 的 副本 数量 都 无 法 达到 默认 的 三 个 副本 的 目标 。 


为 了 节省 版 面 ， 我 们 截断 了 dfsadqmin 命 令 的 输出 。 尤 其 是 ， 一 直 以 来 我 们 都 忽略 了 每 个 节 
点 的 状态 信息 。 然 而 ， 让 我 们 看 看 经 过 上 述 操作 后 的 集群 中 第 一 个 节点 的 状态 。 在 未 杀 掉 任何 
DataNode 之 前 ， 其 状态 输出 如 下 所 示 。 


Name: 10.0.0.101:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 399379827 (380.88 MB) 

Non DFS Used: 5064258189 (4.72 GB) 

DFS Remaining: 14880485376(13.86 GB) 

DFS Used%: 1.96% 

DFS Remaining%: 73.14% 

Last contact: Sun Dec 04 15:16:27 PST 2011 


在 杀 掉 一 个 DataNode 贡 点 ， 所 有 数据 块 都 按 需 重新 复制 之 后 ， 其 状态 输出 如 下 所 示 。 


Name: 10.0.0.101:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 515236022 (491.37 MB) 

Non DFS Used: 5016289098 (4.67 GB) 

DFS Remaining: 14812598272(13.8 GB) 

DFS Used%: 2.53% 

DFS Remaining%: 72.81% 

Last contact: Sun Dec 04 15:31:22 PST 2011 


需要 注意 的 是 ， 该 节点 上 的 本 地 DFS 存 储量 增加 了 。 这 并 不 足 为 奇 。 由 于 集群 出 现 了 一 个 死 
亡 节 点 ,集群 中 的 其 他 节点 需要 增加 一 些 额外 的 数据 块 副本 , 这 就 造成 了 每 个 节点 上 已 用 存储 空 
间 的 增加 。 


在 集群 中 的 男 外 两 个 DataNode 被 杀 死 之 后 ， 第 一 个 节点 的 状态 如 下 所 示 。 


Name: 10.0.0.101:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 514289664 (490.46 MB) 

Non DFS Used: 5063868416 (4.72 GB) 

DFS Remaining: 14765965312(13.75 GB) 

DFS Used%: 2.53% 

DFS Remaining%: 72.58% 

Last contact: Sun Dec 04 15:43:47 PST 2011 
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集群 中 的 死亡 节点 增加 到 了 2 个 ， 似 乎 剩余 的 活跃 节点 应 该 消耗 更 多 的 本 地 存储 空间 ， 但 本 
例 中 的 情况 并 非 如 此 ， 其 原因 仍 与 复制 因子 有 着 密切 关系 。 


如 果 集 群 由 4 个 节点 组 成 ， 其 复制 因子 为 3， 那 么 其 中 3 个 活跃 节点 会 分 别 存 储 每 个 数据 块 的 3 
个 副本 。 假 如 死 掉 1 个 节点 , 存储 于 其 余 3 个 节点 的 数据 块 不 受 影 响 , 而 存储 在 该 节点 的 数据 块 需要 
新 建 一 个 副本 。 但 是 ， 由 于 只 有 3 个 活跃 节点 ， 每 个 节点 需要 为 每 个 数据 块 保存 1 个 副本 。 假 如 第 2 
个 节点 发 生 故 障 ， 会 导致 所 有 数据 块 的 副本 数量 都 小 于 复制 因子 ， 同 时 Hadoop 找 不 到 地 方 存放 额 
外 副本 。 因 为 剩余 的 存活 节点 已 经 为 每 个 数据 块 保存 了 1 个 副本 , 它们 的 空间 使 用 率 不 会 继续 增加 。 
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很 明显 ， 下 一 步 我 们 将 快速 杀 掉 3 个 DataNode。 
之 前 我 们 曾 提 到 ， 有 些 操作 不 能 在 产品 集群 上 进行 ， 这 个 例子 就 是 这 种 情 


M 
JL. 尽管 这 些 步 又 如 果 操 作 得 当 ， 不 会 引起 数据 丢失 ， 但 却 会 导致 现 有 数据 在 
某 段 时 间 内 无 法 使 用 。 


使 用 以 下 步骤 连续 杀 死 3 个 DataNode。 

(D 使 用 下 列 命令 重启 所 有 节点 。 
$ start-all.sh 

(2) 等 待 ， 直 到 Hadoop 的 df£sadmin -report 命 令 显 示 有 4 个 活跃 节点 。 

(3) 把 测试 文件 的 新 副本 filel .new 放 到 HDFS 上 。 
$ Hadoop fs -put filel.data filel.new 

(4) 登录 到 集群 中 的 3 台 主 机 并 杀 死 每 台 主机 上 的 DataNode 进 程 。 

(5) 等 候 10 分 钟 ， 之 后 通过 dfsadmin 命 令 监视 集群 状态 ， 直 到 集群 状态 如 下 所 示 。 
Under replicated blocks: 123 


Blocks with corrupt replicas: O0 
Missing blocks: 33 


Datanodes available: 1 (4 total, 3 dead) 


(6) 尝试 从 HDFS 获 取 测 试 文件 filel .new。 


$ hadoop fs -get filel.new filel.new 
11/12/04 16:18:05 INFO hdfs.DFSClient: No node available for 
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block: blk 1691554429626293399 1003 file-/user/hadoop/filel.new 
11/12/04 16:18:05 INFO hdfs.DFSClient: Could not obtain block 

blk 1691554429626293399 1003 from any node: java.io.IOException: 
No live nodes contain current block 


get: Could not obtain block: blk 1691554429626293399 1003 file-/ 
user/hadoop/filel.new 


(7) 使 用 start-all.sh 脚本 重启 所 有 死亡 节点 。 
$ start-all.sh 
(8) 不 断 监 视 数据 块 状态 。 


$ Hadoop dfsadmin -report | grep -i blocks 
Under replicated blockss: 69 

Blocks with corrupt replicas: 0 

Missing blocks: 35 

$ Hadoop dfsadmin -report | grep -i blocks 
Under replicated blockss: 0 

Blocks with corrupt replicas: 0 

Missing blocks: 30 


(9) 等 到 输出 Missing blocks: 0， 然 后 将 测试 文件 Eilel.new 找 贝 到 本 地 文件 系统 。 
$ Hadoop fs -get filel.new filel.new 
(10) 对 获取 的 文件 和 原始 文件 进行 MD5 校 验 。 Gm 


$ md5sum filel1.* 
f1f30b26b40£8302150bc2a494c1961d filei.data 
f1f30b26b40£8302150bc2a494c1961d filel.new 


原理 分 析 


在 重启 被 杀 死 进程 之 后 ， 我 们 将 测试 文件 拷贝 到 HDFS。 严 格 意义 上 来 讲 ， 将 测试 文件 拷贝 
到 HDFS 并 不 是 必需 的 , 我 们 也 可 以 使 用 HDFS 上 的 已 有 文件 , 但 由 于 数据 块 分 别 存储 在 不 同 的 主 
机 ， 使 用 原始 副本 得 出 的 结果 更 具 代 表 性 。 


之 后 ， 我 们 按照 前 述 步 骤 杀 死 3 个 DataNode ， 并 等 候 HDFS 的 响应 。 与 前 面 几 个 例子 不 一 样 
的 是 , 杀 死 这 么 多 节点 意味 着 某 些 数据 块 的 所 有 副本 都 存储 在 被 杀 死 的 节点 上 。 如 我 们 所 见 , 结 
果 正 是 如 此 : 仅 剩 1 个 节点 的 集群 中 有 100 多 个 数据 块 的 副本 数量 低 于 复制 因子 (很 明显 ， 这 些 数 
据 块 仅 剩 1 个 副本 )， 同 时 丢 了 33 个 数据 块 。 

讨论 数据 块 有 点 抽象 , 所 以 我 们 尝试 获取 测试 文件 。 因 为 我 们 知道 , 由 于 缺少 33 个 数据 块 造 
成 测试 文件 不 完整 ， 就 像 是 有 33 个 洞 。 访 问 测试 文件 以 失败 告终 , 因为 Hadoop 无 法 找到 缺失 的 数 
据 块 ， 而 这 些 数据 块 在 文件 传送 过 程 中 是 必需 的 。 
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接 下 来 我 们 重新 启动 所 有 节点 并 再 次 尝试 获取 测试 。 这 一 次 终于 成 功 了 , 但 我 们 采取 了 一 个 
额外 的 验证 措施 ,对 获得 的 文件 进行 MD5 校 验 ,以 确认 它 与 原始 文件 完全 相同 一 一 结果 确实 如 此 。 


从 本 例 可 以 看 出 , 虽然 入 点 故障 可 能 会 导致 数据 无 法 访问 , 但 节点 恢复 之 后 , 这 个 暂时 性 的 
数据 缺失 问题 就 不 复 存在 。 这 点 特别 重要 。 


1. 数据 丢失 的 可 能 性 


不 要 从 本 例 中 轻易 得 出 Hadoop 集 群 不 会 丢失 数据 这 样 的 结论 。 一 般 来 讲 ， 很 难 出 现 数据 丢 
失 这 样 的 情况 ， 但 灾难 往往 喜欢 以 错误 的 方式 突然 出 现 。 


如 上 例 所 示 ， 不 少 于 复制 因子 的 多 个 节点 同时 发 生 故 障 有 可 能 导致 数据 块 缺 失 。 在 由 4 人 台 主 
机 组 成 的 示例 集群 中 , 3 个 死亡 节点 导致 数据 块 缺失 的 可 能 较 高 。 在 由 1000 台 主机 组 成 的 集群 中 ， 
这 个 可 能 性 相对 较 低 但 仍然 存在 。 随 着 集群 规模 增 大 ， 故 障 率 也 随 之 增 大 ， 狭 小 的 时 间 窗 口内 ， 
3 个 节点 同时 发 生 故 障 的 可 能 性 越 来 越 低 。 因 此 ， 它 带 来 的 影响 也 减 小 了 ， 但 多 个 节点 接连 发 生 
故障 总 会 带 来 数据 丢失 的 风险 。 


另 一 个 隐蔽 的 问题 是 反复 故障 或 局 部 故障 。 例 如 , 整个 集群 的 不 稳定 电源 会 导致 节点 反复 关 
机 和 重启 。 Hadoop 为 了 达成 复制 目标 ， 可 能 会 不 断 要 求 恢复 运行 的 主机 复制 那些 副本 数量 少 于 
复制 因子 的 数据 块 , 电源 问题 导致 的 突然 关机 又 会 造成 这 些 任 务 的 中 途 失 败 。 这 样 一 系列 事件 也 
会 提高 潜在 的 数据 丢失 风险 。 

最 后 , 不 要 忘 了 人 为 因素 。 即 使 将 复制 因子 设置 为 集群 中 的 主机 数量 , 它 保 证 了 每 个 节点 上 
都 存储 了 一 份 数据 副本 ， 但 在 用 户 意外 删除 文件 或 目录 时 也 无 济 于 事 。 

结论 是 , 由 系统 故障 造成 的 数据 丢失 的 可 能 性 很 小 , 但 由 无 法 避免 的 人 工 操作 造成 的 数据 丢 
失 的 可 能 性 仍然 存在 。 复制 数据 并 不 是 一 个 完整 的 备份 方案 。 用 户 必 须 充 分 认识 到 待 处 理 数据 的 
重要 性 以 及 本 节 讨 论 的 数据 丢失 对 我 们 造成 的 影响 。 













































































实际 上 ,Hadoop 集 群 中 最 严重 的 数据 丢失 是 由 NameNode 和 文件 系统 损坏 造 

一 成 的 。 我 们 将 在 下 一 章 比 较 详 细 地 讨论 这 一 话题 。 

2. 数据 块 损坏 

DataNode 发 出 的 状态 报告 中 也 包括 了 已 损坏 数据 块 的 数量 ， 这 一 点 我 们 之 前 从 未 提 及 。 
DataNode 将 数据 块 初次 写 人 HDFS 时 ， 同 时 将 一 个 包含 本 数据 块 密码 校 验 和 的 隐藏 文件 写 入 相同 
目录 。 默 认 情 况 下 ，DataNode 为 每 512 字 节 生 成 一 个 校 验 和 。 

每 当 客 户 端 读 取 数 据 块 时 ， 同 时 也 会 读 取 校 验 和 列表 。 客 户 端 会 计算 已 读 取 数据 的 校 验 和 ， 
并 将 其 与 获取 的 校 验 和 列表 进行 对 比 。 如 果 两 个 校 验 和 不 一 致 , 该 DataNode 节 点 上 的 数据 块 被 标 
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记 为 损坏 数据 , 客户 端 会 获取 另 一 个 副本 。 得 知 数据 块 已 损坏 之 后 , NameNode 会 调度 该 DataNode 
基于 现 有 的 未 损坏 副本 生成 一 个 新 的 副本 。 





如 果 你 认为 不 会 发 生 数据 损坏 的 情况 ,， 想 一 下 出 现 故障 的 内 存 、 硬 盘 、 存 储 控制 器 ,或 单 台 
主机 的 其 他 问题 , 它们 都 可 能 在 初次 写 和 人 数据 块 或 读 取 数 据 块 时 导致 数据 块 损坏 。 这 些 情 况 非 常 
罕见 。 存 储 同 一 数据 块 副本 的 所 有 DataNode 发 生 相 同 数据 损坏 的 可 能 性 微乎其微 。 但 是 , 请 记 住 ， 
正如 前 面 提 到 的 ， 复 制 并 不 是 一 个 完整 的 备份 方案 ， 如 果 用 户 需 要 确保 数据 100% 可 用 ， 可 能 需 
要 考虑 在 集群 之 外 备份 数据 。 











6.5 实践 环节 : RE TaskTracker 进程 


我 们 已 经 对 HDFS 及 其 DataNode 故 障 进 行 了 太 多 的 讨论 ， 现 在 来 看 看 杀 死 某 些 TaskTracker 进 
程 会 对 MapReduce 造 成 什么 损坏 。 


虽然 MapReduce 中 有 一 个 mradmin 命 令 与 HDFS 的 dfsadmin 命 令 类 似 ， 但 它 无 法 提供 类 似 
HDFS 的 状态 报告 ,因此 ,我 们 使 用 MapReduce 的 Web 用 户 接 口 ( 默认 情况 下 ,该 接口 位 于 JobTracker 
主机 的 500 70 端 口 ) 监测 MapReduce 集 群 的 状态 。 











执行 下 列 步 又 。 
(1) 通过 start-all .sh 脚本 启动 所 有 部 件 ， 之 后 将 浏览 器 指向 MapReduce 网 页 用 户 接口 。 
页 面 与 下 图 相似 。 
Ehead Hadoop Map/Reduce Administration - Windows Internet Explorer 
Ga 10.0.0.100:50030/jot glali: p 
Ele gdt View Favortes Tools He 
- ~ |E seach ~ wc Ejio E- Q i ua ”图 msc fr cames [eB AJ + 
W Favorites al -| {Ê Hadoop job. 201112161623... | {É head Hadoop Map/Reduc... X | | 





head Hadoop Map/Reduce Administration 


Quick Links 
State: RUNNING 
Started: Fri Dec 16 16:23:10 PST 2011 
Version: 0.202, r911707 
Compiled: Fri Feb 19 08:07:34 UTC 2010 by chrisdo 
Identifier: 201112161623 


Cluster Summary (Heap Size is 6.69 MB/966.69 MB) 


Maps | Reduces | Total Submissions | Nodes 


Map Task Capacity | Reduce Task Capacity | Avg. TasksiNode | Blacklisted Nodes 
o |o [1 [a 


8 8 400 0 





Scheduling Information 





Queue Name Scheduling Information 








default N/A 








Filter (Jobid, Priority, User, Name) 
Example: 'user.smith 3200' will filter by 'smith' only in the user field and '3200' in all fields 
1 





| 


[ 而 | res © Internet. baT[&i109 - 


(2) 启动 一 个 长 期 运行 的 MapReduce 作 业 ， 带 有 较 大 参数 的 计算 圆周 率 的 示例 程序 就 很 合适 。 


Done 
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$ Hadoop jar Hadoop/Hadoop-examples-1.0.4.jar pi 2500 2500 
(3) 登录 到 集群 中 的 一 个 节点 ， 使 用 jps 命 令 确 定 TaskTracker 的 进程 ID。 


$ jps 

21822 TaskTracker 
3918 Jps 

3891 DataNode 


(4) 使 用 下 列 命令 杀 死 TaskTracker 进 程 。 
$ kill -9 21822 

(5) 确认 TaskTracker 不 再 处 于 运行 状态 。 
$jps 


3918 Jps 
3891 DataNode 


(6) 返回 MapReduce 网 页 用 户 接 口 ，10 分 钟 后 ， 你 应 该 看 到 节点 数 、 可 用 的 map/reduce slot 数 
量 发 生 了 变化 ， 如 下 图 所 示 。 











{Æ head Hadoop Map/Reduce Administration - Windows Internet Explorer [-i5]x] 
QC» [ei nonas 00soc:cctracier jsp ILE e x IO ave secure Search e| 
Ele Edt View Favorites Tools Help 

p- | 加 sea ~ vc [uen =- QO æ ua 图 msc fr cames (nd ~| + 
WW Favortes -H| -| i Hadoop job 201112161623... | K£ head Hadoop Map/Reduc... x 











head Hadoop Map/Reduce Administration 


Quick Links 
State: RUNNING 

Started: Fri Dec 16 16:23:10 PST 2011 

Version: 0.20 2, r911707 

Compiled: Fri Feb 19 08:07:34 UTC 2010 by chrisdo 

Identifier: 201112161623 





Cluster Summary (Heap Size is 8.1 MB/966.69 MB) 





| Maps [ Reduces [Total Submissions | Nodes | Map Task Capacity Reduce Task Capacity [Avg. TasksiNode | Blacklisted Nodes 
6 lo |13 3 [6 6 4.00 0 





Scheduling Information 


Queue Name | Scheduling Information 


default N/A 





Filter (Jobid, Priority, User, Name) 

Example: 'user: smith 3200' will filter by 'smith' only in the user field and 3200' in all fields xl 
«| | 吕 
Done |i | E internet Fa- [Rios - 7 


(7) 在 原来 的 窗口 中 查看 作业 进度 ， 作 业 应 该 处 于 proceeding 状 态 ， 虽 然 其 运行 缓慢 。 
HE 











(8) 重启 被 杀 死 的 TaskTracker 进 程 。 


$ start-all.sh 
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(9) 查看 MapReduce 网 页 用 户 接口 。 片 刻 之 后 ， 节 点 数 又 恢复 到 了 原来 的 数量 ， 如 下 图 所 示 。 


f$ head Hadoop Map/Reduce Admii 


T 








Elle. Edt View Favorites Tools Help 
v |E seach ~ oc Ffion =- O g Cna ”图 msc fe cames 回 L| + 


3 Favorites — —-| -| i i Hadoop job 201112161623... | i£ head Hadoop Map/Reduc... x 





head Hadoop Map/Reduce Administration 


Quick Links 
State: RUNNING 


Started: Fri Dec 16 16:23:10 PST 2011 

Version: 0.202, 1911707 

Compiled: Fri Feb 19 08:07:34 UTC 2010 by chrisdo 
Identifier: 201112161623 





Cluster Summary (Heap Size is 8.1 MB/966.69 MB) 





Maps | Reduces | Total Submissions | Nodes | Map Task Capacity | Reduce Task Capacity | Avg. Tasks/Node | Blacklisted Nodes 





6 0 | 13 4 8 8 4.00 0 





Scheduling Information 


| Queue Name Scheduling Information 


| default N/A 





Filter (Jobid, Priority, User, Name) 


Example: 'user:smith 3200' will filter by 'smith' only in the user field and 3200' in all fields 
* 





Done [ [| | |@ nene Fa | 10095 





原理 分 析 








MapReduce 网 页 接口 提供 了 许多 关于 集群 和 作业 的 信息 。 本 节 我 们 感 兴趣 的 重要 的 数据 是 
Cluster Summary ( 集群 摘要 信息 )， 包 括 Maps、Ruduces ( 目前 正在 执行 的 map 和 reduce 任 务 数 )、 
Total Submissions ( 已 提交 的 作业 总 数 ) Nodes ( 节点 数 和 Map/Reduce Task Capacity( map 和 reduce 
任务 容量 )， 还 有 Blacklisted Nodes ( 列 人 黑 名 单 的 节点 数 )。 








JobTracker 进 程 和 TaskTracker 进 程 之 间 的 关系 与 NameNode 和 DataNode 之 间 的 关系 有 较 大 区 
别 ， 但 它们 都 使 用 了 类 似 的 心跳 机 制 。 





TaskTracker 进 程 频 繁 向 JobTracker 发 送 心 跳 信 息 , 但 与 DataNode 向 NameNode 报 告 数 据 块 的 状 
态 信息 不 同 ，TaskTracker 的 心跳 信息 包含 任务 进度 及 可 用 空间 。 每 个 节点 都 有 一 个 可 配置 的 map 
和 reduce slot ( 默认 值 为 2 )， 这 就 解释 了 为 什么 我 们 在 第 一 个 网 页 用 户 接口 页 面 看 到 集群 由 4 个 节 
点 组 成 ， 却 有 8 个 map 和 reduce slot。 

















当 我 们 杀 死 TaskTracker 进 程 时 ,JobTracker 进 程 收 不 到 其 心跳 信息 。 在 用 户 设置 的 时 间 过 后 ， 
节点 被 认定 为 死亡 节点 ， 集 群 容量 相应 地 减少 ， 这 个 变化 反映 在 网 页 用 户 接口 。 
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y 用 户 可 通过 修改 mapred-site.xml 文 件 的 mapred.tasktrackerexpiry.interval 属性 
配置 TaskTracker 进 程 的 超时 时 间 值 ， 该 值 被 用 于 认定 节点 是 否 死亡 。 
当 一 个 TaskTracker 进 程 被 标记 为 死亡 节点 时 ，JobTracker 进 程 会 认为 正在 执行 的 任务 失败 ， 
并 将 它们 重新 分 配给 集群 中 的 其 他 节点 。 尽 管 某 个 节点 被 杀 死 了 ， 但 整个 作业 却 最 终 执 行 成 功 ， 
这 也 从 侧面 验证 了 上 述 内 容 。 


重新 启动 TaskTracker 进 程 后 , 它 会 给 JobTracker 发 送 心 跳 消息 ，JobTracker 会 把 它 标 记 为 存活 
节点 并 再 次 将 其 纳入 MapReduce 集 群 。 我 们 在 最 后 那 张 截 图 中 看 到 ， 集 群 节点 数 和 任务 slot 容 量 
重新 恢复 到 了 其 原始 值 ， 这 表明 重启 后 的 TaskTracker 重 新 成 了 MapReduce 集 群 的 一 部 分 。 


1. DataNode 故 障 和 TaskTracker 故 障 对 比 


我 们 不 会 执行 类 似 的 杀 死 2 个 或 3 个 TaskTracker 节 点 的 操作 ,因为 任务 执行 运行 机 制 表明 , 个 
别 的 TaskTracker 故 障 相对 来 讲 不 是 很 重要 。 因 为 TaskTracker 进 程 由 JobTracker 控 制 和 协调 ， 个 别 
TaskTracker 发 生 故 障 只 会 减少 集群 可 并 发 运行 的 任务 数 , 除 此 之 外 不 会 产生 其 他 直接 影响 。 如 果 
一 个 TaskTracker 实 例 失 败 ，JobTracker 会 调度 集群 中 一 个 运转 正常 的 TaskTracker 进 程 重新 运行 失 
败 的 任务 。JobTracker 可 以 随意 在 集群 中 重新 安排 任务 ， 因 为 TaskTracker 是 无 状态 的 ， 单 个 
TaskTracker 故 障 不 会 影响 该 作业 的 其 他 部 分 。 


相反 ，DataNode 本 质 上 是 有 状态 的 ， 某 个 DataNode 故 障 可 以 影响 HDFS 上 存储 的 持久 数据 ， 
可 能 导致 无 法 访问 这 些 数据 。 

上 述 内容 强 调 了 各 类 节点 的 性 质 及 其 在 整体 Hadoop 框 架 中 的 相互 关系 。DataNode 管 理 数据 ， 
TaskTracker 对 DataNode 存 储 的 数据 进行 读 写 。 即 使 每 个 TaskTracker 都 发 生 灾难 性 故障 ， 都 不 会 影 
响 到 HDFS 的 功能 。 而 NameNode 进 程 中 的 类 似 故障 会 导致 活跃 的 MapReduce 和 集群 无 法 使 用 ( 除非 
MapReduce 的 配置 允许 其 使 用 其 他 存储 系统 )。 


2. 永久 故障 


截至 目前 , 我 们 假设 死亡 节点 可 在 相同 的 物理 主机 重新 启动 。 但 是 假如 物理 主机 发 生 了 致命 
故障 导致 死亡 节点 无 法 重启 ， 那 该 怎么 办 呢 ? 答案 很 简单 ， 将 该 主机 从 slaves 文 件 删 掉 ，Hadoop 
就 不 再 启动 那 台 主机 上 的 DataNode 或 TaskTracker。 假 如 你 有 一 台 替 代 主 机 , 将 新 主机 加 入 到 相同 
文件 并 运行 start-al1.sh 脚 本 。 
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意 ， 只 能 通过 start/stop 和 slaves.sh 脚 本 访问 slaves 文 件 。 用 户 只 

需 在 运行 这 些 命令 的 主机 上 更 新 该 文件 , 而 无 需 在 每 个 节点 都 进行 同样 操作 。 实 

S 际 上 , 运行 这 些 命令 的 主机 通常 是 个 专用 的 主 节点 , 或 者 NameNode 或 JobTracker 
进程 所 在 的 主机 。 我 们 将 在 第 7 章 介 绍 这 些 设置 。 
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杀 死 集群 主 贡 点 


虽然 DataNode 进 程 和 TaskTracker 进 程 发 生 故 障 产 生 的 影响 有 大 有 小 , 但 是 相对 来 讲 , 个 别 节 
点 没 那么 重要 。 无 论 哪个 TaskTracker 或 DataNode 发 生 故 障 都 不 会 引起 关注 ， 只 有 多 个 节点 发 生 故 
障 才 会 给 系统 带 来 问题 ， 尤 其 是 多 个 节点 接二连三 地 发 生 故 障 。 但 是 ,我们 只 有 一 个 JobTracker 
和 NameNode， 让 我 们 看 看 它们 发 生 故 障 会 造成 什么 后 果 。 











6.6 ”实践 环节 : RE JobTracker 


首先 ， 我 们 将 杀 死 JobTracker 进 程 ， 我 们 认为 这 会 影响 执行 MapReduce 作 业 ， 但 不 会 对 HDFS 
文件 系统 造成 影响 


(1) 登录 到 JobTracker 主 机 并 杀 死 该 进程 。 
(2) 启动 一 个 MapReduce 示 例 作 业 ， 如 计算 圆周 率 的 作业 或 者 字数 统计 作业 。 


$ Hadoop jar wc.jar WordCount3 test.txt output 

Starting Job 

11/12/11 16:03:29 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9001. Already tried 0 time(s). 

11/12/11 16:03:30 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9001. Already tried 1 time(s). 


11/12/11 16:03:38 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9001. Already tried 9 time(s). 


java.net.ConnectException: Call to /10.0.0.100:9001 failed on 
connection exception: java.net.ConnectException: Connection 
refused 

at org.apache.hadoop.ipc.Client.wrapException(Client.java:767) 

at org.apache.hadoop.ipc.Client.call(Client.java:743) 

at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:220) 


(3) 执行 一 些 HDFS 操 作 。 


$ hadoop fs -1s / 

Found 2 items 

drwxr-xr-x - hadoop supergroup 0 2011-12-11 19:19 /user 
drwxr-xr-x - hadoop supergroup 0 2011-12-04 20:38 /var 
$ hadoop fs -cat test.txt 

This is a test file 


原理 分 析 
在 杀 死 JobTracker 进 程 之 后 ， 我 们 试图 启动 一 个 MapReduce 作 业 。 在 第 2 章 中 ， 我 们 了 解 到 ， 
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运行 作业 的 主机 上 的 客户 端 要 通过 与 JobTracker 的 通信 完成 作业 调度 的 初始 化 工作 。 但 本 例 中 ， 
JobTracker 已 经 停止 运行 ， 通 信 过 程 无 法 完成 ， 作 业 以 失败 告终 。 

随后 ， 我 们 执行 了 一 些 HDFS 命 令 ， 再 次 强调 了 上 节 提 到 的 要 点 : 运行 异常 的 MapReduce 集 
群 不 会 对 HDFS 造 成 直接 影响 ， 所 有 的 客户 端 都 可 访问 HDFS 并 执行 HDFS 命 令 。 

启动 奉 代 JobTracker 

MapReduce 集 群 的 恢复 也 较为 简单 。 只 要 重启 JobTracker， 所 有 后 续 MapReduce 作 业 都 会 成 
功 运 行 。 

请 注意 ， 当 JobTracker 被 杀 死 时 ，MapReduce 框 架 没 有 保存 任何 正在 执行 的 作业 的 状态 信息 ， 
所 有 的 未 完成 作业 都 需 重启 。 要 留意 一 下 HDFS 上 的 临时 文件 和 临时 目录 ， 许 多 MapReduce 作 业 
会 在 HDFS 写 和 人 一些 临 时 数据 ， 并 会 在 作业 运行 结束 时 删 掉 这 些 数据 。 失 败 的 作业 ( 尤其 是 由 
JobTracker 故 障 引起 的 失败 作业 ) 可 能 会 留 下 一 些 这 种 文件 ， 用 户 需要 手动 清理 这 些 临 时 数据 。 



































一 展 身手 : 在 新 主机 上 运行 JobTracker 


但 是 ， 假 如 JobTracker 进 程 所 在 的 主机 发 生 了 致命 的 硬件 错误 ,无 法 在 该 主机 上 重启 
JobTracker 进 程 ， 这 时 候 该 怎么 办 呢 ? 在 这 种 情况 下 ， 用 户 需 要 在 另外 一 台 主 机 上 启动 一 个 新 
JobTracker 进 程 。 这 需要 对 所 有 节点 上 的 mapred-site. xml 文 件 进 行 修改 ,更 新 该 文件 中 的 
主 节点 地 址 ， 并 重启 集群 。 试 着 完成 这 些 操作 。 我 们 将 在 第 7 章 详细 探讨 这 个 话题 。 


6.7 ”实践 环节 : 杀 死 NameNode 进程 
接 下 来 ， 我 们 将 杀 死 NameNode 进 程 。 我 们 认为 ， 这 将 直接 导致 无 法 访问 HDFS， 进 而 会 影 
响 到 MapReduce 框 架 ， 使 MapReduce 作 业 无 法 运行 。 


un^ 不 要 在 正在 运行 的 重要 集群 中 尝试 此 操作 。 尽 管 它 带 来 的 影响 是 短暂 的 ,但 
NS 整个 集群 会 在 一 段 时 间 内 处 于 次 痰 状态 。 


(1) 登录 到 NameNode 主 机 并 列 出 所 有 的 正在 运行 的 进程 。 


$ jps 

2372 SecondaryNameNode 
2118 NameNode 

2434 JobTracker 

5153 Jps 


(2) 杀 死 NameNode 进 程 。 别 理会 SecondaryNameNode 进 程 ， 可 以 让 它 继续 保持 运行 。 
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(3) 


尝试 访问 HDFS 文 件 系 统 。 


$ hadoop fs -1s / 

11/12/13 16:00:05 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 0 time(s). 

11/12/13 16:00:06 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 1 time(s). 

11/12/13 16:00:07 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 2 time(s). 

11/12/13 16:00:08 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 3 time(s). 

11/12/13 16:00:09 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 4 

time(s). 


Bad connection to FS. command aborted. 


(4) 提交 MapReduce 作 业 。 


(5) 


(6) 


$ hadoop jar hadoop/hadoop-examples-1.0.4.jar pi 10 100 
Number of Maps = 10 
Samples per Map - 100 
11/12/13 16:00:35 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 0 time(s). 
11/12/13 16:00:36 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 1 time(s). 
11/12/13 16:00:37 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 2 time(s). 
java.lang.RuntimeException: java.net.ConnectException: Call 
to /10.0.0.100:9000 failed on connection exception: java.net. 
ConnectException: Connection refused 

at org.apache.hadoop.mapred.JobConf.getWorkingDirectory(JobConf. 
java:371) 

at org.apache.hadoop.mapred.FileInputFormat. 
setInputPaths (FileInputFormat.java:309) 
Caused by: java.net.ConnectException: Call to /10.0.0.100:9000 
failed on connection exception: java.net.ConnectException: 
Connection refused 


查看 正在 运行 的 进程 。 


$ jps 

2372 SecondaryNameNode 
5253 Jps 

2434 JobTracker 
Restart NameNode 

$ start-all.sh 


访问 HDFS。 


$ Hadoop fs -1s / 
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Found 2 items 


drwxr-xr-x - hadoop supergroup 0 2011-12-16 16:18 /user 
drwxr-xr-x - hadoop supergroup 0 2011-12-16 16:23 /var 
原理 分 析 


我 们 杀 死 了 NameNode 进 程 之 后 ， 党 试 访问 HDFS 文 件 系统 。 当 然 ， 该 操作 以 失败 而 告终 。 
NameNode 宕 机 之 后 ， 集 群 中 就 没有 接收 文件 系统 命令 的 服务 器 了 。 


随后 ,我 们 试 着 提交 一 个 MapReduce 作 业 ， 该 操作 也 没有 成 功 。 从 简略 的 异常 堆栈 轨迹 可 以 
看 出 ， 在 我 们 设置 作业 的 输入 数据 路 径 时 ，JobTracker 要 访问 NameNode， 却 没有 成 功 。 


接着 ， 我 们 通过 查看 正在 运行 的 进程 ， 确 定 了 JobTracker 运 行 正 常 ，MapReduce 作 业 失 败 的 
原因 是 无 法 访问 NameNode。 


最 后 ， 我 们 重启 了 NameNode 并 确认 HDFS 运 转正 常 。 

















1. 启动 奉 代 NameNode 


截至 目前 ， 我 们 认识 到 MapReduce 集 群 和 HDFS 集 群 存在 某 些 区 别 。 有 了 这 样 的 认识 ， 就 不 
会 对 “启用 蔡 代 NameNode 要 比 启用 替代 JobTracker 的 步骤 更 为 复杂 ”感到 吃惊 。 毫 不 客气 地 说 ， 
由 于 硬件 故障 而 不 得 不 启用 替代 NameNode， 这 可 能 是 Hadoop 集 群 中 最 糟糕 的 情况 。 除 非 你 有 充 
分 的 准备 ， 否 则 极 可 能 丢失 全 部 数据 。 


这 仅 是 一 个 结论 声明 ， 只 有 深入 研究 NameNode 的 本 质 ， 才 能 理解 为 什么 会 出 现 上 述 情 况 。 
2. 详解 NameNode 


目前 ， 我 们 学 到 了 NameNode 是 DataNode 进 程 之 间 的 协调 者 ， 同 时 ， 它 还 负责 使 某 些 配置 参 
数 立即 生效 ， 如 数据 块 复制 因子 。 这 些 任 务 都 很 重要 ， 但 它们 都 只 停留 在 操作 层面 。NameNode 
还 负责 管理 HDFS 文 件 系统 的 元 数据 ， 可 以 把 它 类 比 为 传统 文件 系统 中 的 文件 分 配 表 。 


3. 文件 系统 、 文 件 、 数 据 块 和 节点 


在 访问 文件 系统 时 , 用 户 通 常 不 会 关注 数据 块 。 用 户 要 访问 的 是 文件 系统 中 某 个 位 置 的 特定 
文件 。 为 了 便于 实现 这 个 功能 ，NameNode 进 程 需要 维护 许多 信息 。 


O 文件 系统 的 实际 内 容 ， 所 有 文件 的 文件 名 ， 以 及 它们 所 在 的 目录 。 

O 关于 上 述 元 素 的 元 数据 ， 比 如 文件 大 小 、 所 有 者 、 复 制 因子 。 

O 数据 块 与 文件 之 间 的 映射 关系 ， 反 映 了 哪些 数据 块 保存 的 是 哪个 文件 的 数据 。 

a 集群 中 节点 与 数据 块 的 映射 关系 ， 反 映 了 哪些 数据 块 存储 在 哪个 节点 上 。 此 外 ， 基 于 上 
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述 映 射 关 系 ，NameNode 还 记录 了 每 块 数据 的 当前 副本 状态 。 

除 最 后 一 点 外 ， 所 有 信息 都 是 永久 数据 ， 必 须 在 NameNode 重 启 过 程 中 维护 这 些 数据 。 

4. 集群 中 最 重要 的 数据 : fsimage 

NameNode 进 程 在 硬盘 上 保存 了 两 个 数据 结构 ， 一 个 是 fsimage 文 件 ， 另 一 个 是 edit log， 它 
记录 了 fsimage 文 件 的 所 有 改动 。fsimage 文 件 存储 了 上 节 提 到 的 文件 系统 的 关键 属性 : 每 个 文 
件 及 目录 的 文件 名 和 详细 信息 ， 以 及 每 个 文件 、 目 录 与 数据 块 之 间 的 映射 关系 。 

假如 丢 了 fsimage 文 件 , 保 存 数据 块 的 节点 就 无 法 获知 哪些 数据 块 对 应 着 哪个 文件 的 哪 一 部 
分 。 XBRE, 你 甚至 都 不 知道 应 该 首先 构建 哪个 文件 。fsimage 文 件 的 丢失 不 会 影响 文件 系统 数 
据 的 完整 性 ， 然 而 ， 这 些 数 据 却 变 得 毫 无 用 处。 


NameNode 进 程 启动 时 会 读 取 fsimage 文 件 。 为 了 高 效 运 行 ， 这 些 数 据 保 存在 NameNode 的 
内 存 中 ， 并 在 内 存 中 完成 操作 。 为 了 防止 丢失 对 文件 系统 的 更 改 ， 这 些 更 改 在 NameNode 正 常 运 
转 时 间 被 写 人 edit log 文 件 。 重新 启动 的 时 候 ， 启动 之 时 就 搜寻 这 个 日 志文 件 ， 并 把 它 的 内 容 更 新 
到 fsimage 文 件 中 ， 之 后 NameNode 会 把 fsimage 文 件 的 内 容 读 和 内存。 


[ 该 过 程 可 通过 使 用 稍 后 将 提 到 的 SecondaryNameNode 进 行 优化 。 ] e 





























5. DataNode 的 启动 


当 DataNode 进 程 启动 时 ， 它 开始 向 NameNode 进 程 发 送 心跳 信息 ， 报 告 存储 在 该 节点 的 数据 
块 的 状态 。 本 章 前 面 内 容 曾 解释 过 ， 当 客户 端 提 出 对 特定 数据 块 的 读 写 请 求 时 ，NameNode 进 程 
通过 上 述 方法 可 获知 由 哪个 节点 向 该 客户 端 提 供 服务 。 如 果 重 启 了 NameNode， 它 将 与 所 有 
DataNode 进 程 重新 建立 心跳 机 制 ， 来 构建 数据 块 与 存储 节点 的 映射 关系 。 


DataNode 因 故障 离开 集群 , 故障 恢复 后 又 重新 加 入 集群 , 导致 数据 块 与 节点 的 映射 关系 无 法 


长 期 保存 ， 因 为 在 目前 的 实际 情况 下 ， 保 存在 硬盘 上 的 状态 信息 可 能 并 不 是 最 新 的 。 这 也 是 
NameNode 进 程 不 留存 数据 块 与 节点 之 间 映 射 关 系 的 原因 。 


6. 安全 模式 


如 果 用 户 在 HDFS 集 群 启动 后 不 久 即 查看 HDFS 网 页 用 户 接口 或 者 afsadmin 的 输出 ， 你 会 发 
现 集群 正 处 于 安全 模式 〈safe mode )， 同 时 也 会 看 到 集群 离开 安全 模式 需要 达到 的 数据 块 阔 值 。 
这 是 数据 块 报告 机 制 在 发 挥 作用 。 


作为 一 种 附加 的 保护 措施 ，NameNode 进 程 会 将 HDFS 文 件 系统 保持 在 只 读 模 式 下 ， 直 到 它 
确认 DataNode 上 报 的 数据 块 数量 达到 了 副本 阔 值 。 通 常情 况 下 , 只 需 所 有 DataNode 上 报 其 数据 块 
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状态 即 可 。 但 是 ， 如 果 某 些 DataNode 发 生 故 障 ，NameNode 需 要 安排 重新 复制 部 分 数据 块 ， 然 后 
集群 才 会 达到 离开 安全 模式 的 条 件 。 


7. SecondaryNameNode 


SecondaryNameNode 是 Haoop 中 命名 最 糟糕 的 实体 。 当 读者 第 一 次 学 习 关键 的 fsimage 文 件 
时 ， 可 能 会 认为 这 个 名 为 SecondaryNameNode 有 助 于 防范 故障 。 它 会 不 会 像 其 名 字 那 样 ， 是 运行 
在 另 一 台 主 机 上 的 NameNode 的 副本 ， 当 主 节 点 发 生 故 障 时 , 它 会 接管 工作 , 控制 集群 ? 很 遗憾 ， 
答案 是 否定 的 。SecondaryNameNode 的 作用 很 特殊 , 它 周期 性 读 取 fsimage 和 editlog ,并 把 editlog 
中 记录 的 对 fsimage 的 改动 应 用 到 fsimage 文 件 中 , 输出 一 个 经 过 更 新 的 fsimage 文 件 。 该 方案 
为 NameNode 节 省 了 大 量 启动 时 间 。 一 个 已 长 时 间 运 行 的 NameNode 进 程 ， 会 生成 一 个 巨大 的 edit 
log， 将 该 文件 中 的 所 有 改动 一 次 性 应 用 到 存储 在 硬盘 上 的 fsimage 文 件 会 花费 很 长 时 间 ， 很 容 
易 就 能 浪费 掉 几 个 小 时 。 使 用 SecondaryNameNode 可 以 帮助 NameNode 较 快 启动 。 


8. 如 何 处 理 NameNode 进 程 的 致命 故障 


显然 ， 当 NameNode 发 生 致命 故障 时 ， 我 们 安慰 自己 “不 要 慌乱 ”无 济 于 事 ， 必 须要 有 解决 
方法 。 有 多 种 原因 可 能 造成 NameNode 故 障 。 这 个 话题 太 重要 了 ， 以 至 于 我 们 在 下 一 章 专门 用 一 
节 内 容 来 讨论 它 。 但 现在 ， 主 要 的 防范 措施 就 是 配置 NameNode， 让 它 把 Esimage 和 edit log 输 出 
到 多 个 不 同位 置 。 通 常 ， 我 们 可 以 添加 一 个 网 络 文件 系统 作为 fsimage 的 输出 位 置 ， 保 证 在 
NameNode 主 机 之 外 还 存 有 一 个 fsimage 副 本 。 


但 是 , 将 NameNode 移 到 一 台新 主机 需要 手工 操作 ， 在 完成 这 些 操作 的 过 程 中 ， 整 个 Hadoop 
集群 完全 失效 。 你 需要 掌握 这 些 操 作 。 对 了 ,你 曾 在 测试 环境 中 成 功 完成 过 这 些 步 骤 ! 千 万 不 要 
在 业务 集群 死机 ，CEO 朝 你 大 喊 大 叫 ， 公 司 发 生 经 济 损失 的 时 候 才 去 学 习 如 何 将 NameNode 移 到 
新 主机 上 。 










































































9. BackupNode/CheckpointNode 和 NameNode HA 


0.22 版 的 Hadoop 用 BackupNode 和 CheckpointNode 这 两 个 新 组 件 来 代替 SecondaryNameNode。 
实际 上 ，CheckpointNode 是 对 SecondaryNameNode 的 重 命名 , 它 负责 在 固定 的 checkpoint 周 期 性 地 
对 fsimage 文 件 进行 更 新 ， 以 减少 NameNode 的 启动 时 间 。 


而 BackupNode 更 像 是 对 NameNode 完 整 功能 的 热 备 份 。 它 在 内 存 中 保存 了 主 NameNode 的 同 
步 状 态 ， 并 从 NameNode 接 收文 件 系统 的 更 新 数据 流 ， 因 此 ， 任 何 时 刻 其 内 存 状态 都 是 最 新 的 。 
如 果 NameNode 死 机 了 ，BackupNode 更 适合 当 新 NameNode。 使 用 BackupNode 作 为 新 NameNode 
的 过 程 不 是 自动 的 ， 它 需要 手工 干预 ， 重 启 集群 ， 但 它 能 解决 NameNode 故 障 带 来 的 麻烦 。 


请 记 住 ，Hadoop 1.0 是 0.20 版 本 的 延续 ， 因 此 它 不 具备 上 述 特性 。 


Hadoop 2.0 会 将 上 述 特性 扩展 ， 最 终 目 标 是 实现 一 种 全 自动 的 NameNode 故 障 恢复 机 制 ， 无 
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需 人 工 干预 从 主 NameNode 到 备份 NameNode 的 迁移 过 程 。HA (High Availability ) 是 最 早 提出 的 
一 种 实现 上 述 目 标的 Hadoop 架 构 改 革 方 案 , 一 旦 实现 ， 它 将 发 挥 重要 作用 。 

10. 硬件 故障 

前 几 节 ， 我 们 故意 制造 了 Hadoop 各 组 件 的 故障 。 大 多 数 情 况 下， 我 们 是 用 结束 Hadoop 进 程 
的 方式 模拟 主机 的 物理 硬件 故障 。 根据 经 验 , 很 少 遇 到 Hadoop 进 程 发 生 故 障 ， 而 作为 集群 基础 的 
主机 硬件 却 没 有 任何 问题 的 情况 。 

11. 主机 故障 

主机 故障 是 要 考虑 的 最 简单 的 情况 。 主 机 故障 可 以 由 关键 硬件 的 问题 导致 ， 比 如 CPU 故障 、 
电压 过 低 、 风 局 被 卡 住 等 。 它 会 导致 运行 在 该 主机 的 Hadoop 进 程 突然 中 止 。 系 统 软件 的 重要 缺陷 ， 
如 内 核 错 误 、LIO 死 锁 等 ， 也 会 造成 同样 后 果 。 

一 般 来 讲 , 假如 故障 导致 主机 册 演 、 重 启 或 其 他 情况 使 其 在 一 段 时 间 内 无 法 访问 , 我 们 认为 
这 些 故障 对 Hadoop 的 影响 和 本 章 前 几 节 的 描述 完全 相同 。 

12. 主机 错误 

更 隐蔽 的 问题 是 ， 主 机 看 上 去 运行 正常 ,实际 上 输出 的 是 错误 结果 。 例 如 ， 内 存 故 障 导 致 的 
数据 损坏 或 磁盘 扇 区 损坏 ， 造 成 硬盘 上 的 数据 被 破坏 。 

对 HDFS 而 言 ， 这 相当 于 我 们 之 前 讨论 的 数据 块 丢失 的 情况 。 

在 MapReduce 中 ,没有 等 价 机 制 。TaskTracker 和 其 他 大 多 数 软件 一 样 ， 它 依赖 于 主机 对 数据 
的 正确 读 写 ， 而 在 任务 运行 或 shuffle 阶 段 没 有 相应 的 检测 错误 数据 的 机 制 。 

13. 关联 故障 的 风险 


某 些 情况 下 , 一 个 故障 的 起 因 也 会 造成 后 续 多 个 故障 , 并 会 大 大 增加 数据 丢失 的 风险 。 但 很 
多 人 在 遭受 损失 之 前 从 未 认真 考虑 过 这 个 问题 。 


举 个 例子 , 我 曾 使 用 由 4 台 联 网 设备 组 成 的 系统 工作 。 其 中 1 台 设 备 出 现 了 故障 , 没 人 去 关注 
这 个 问题 。 毕 竟 还 有 3 台 设备 可 以 正常 工作 。 直 到 它们 在 18 小 时 内 全 部 出 现 故障 , 才 有 人 去 调查 。 
后 来 发 现 ， 这 些 设备 使 用 的 同一 生产 批 次 的 硬盘 存在 质量 问题 。 

问题 并 非 总 是 这 么 匪夷所思 。 最 常见 的 情况 是 ,共享 服务 或 共享 设备 出 现 故 障 。 网 络 交换 机 
会 坏 掉 ， 电 源 功率 会 突 增 , 空调 会 罢工 ,设备 架 会 引起 短路 。 下 一 章 我 们 会 看 到 ，Hadoop 并 不 是 
随机 分 配 数 据 块 的 存储 位 置 , 它 努 力 实现 一 种 数据 布局 策略 , 尽量 降低 共享 服务 引发 故障 的 可 能 
性 以 及 故障 造成 的 损失 。 


一 般 情况 下 , 我 们 讨论 的 上 述 情况 不 太 可 能 出 现 。 绝 大 多 数 情 况 下 ， 出现 故障 的 主机 只 是 个 
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别 现象 ， 它 并 非 故障 危机 的 冰山 一 角 。 但 是 ， 请 记 住 ， 千 万 不 要 轻视 这 些 不 可 能 出 现 的 情况 , JÈ 
其 是 在 集群 规模 日 益 增 长 的 时 候 。 


由 软件 造成 的 任务 失败 


如 前 所 述 ， 实 际 上 很 少 遇 到 Hadoop 进 程 自己 般 演 或 其 他 组 件 自发 失效 的 情况 。 实 践 中 更 常 
见 的 是 由 任务 引发 的 故障 ， 也 就 是 正在 集群 上 执行 的 map 或 reduce 任 务 引发 的 故障 。 


缓慢 运行 的 任务 引发 的 故障 
首先 看 一 下 如 果 任 务 暂 停 ， 或 者 在 Hadoop 看 来 任务 停止 运行 将 会 引发 的 后 果 。 


















































6.8 实践 环节 : 引发 任务 故障 
我 们 将 会 造成 任务 失败 。 在 开始 行动 之 前 ， 我 们 需要 修改 默认 的 超时 间 值 。 


(1) 将 下 列 配 置 属性 添加 到 mapred-site.xml 文 件 。 


<property> 
<name>mapred.task.timeout</name> 
<value>30000</value> 

</property> 


(2) 我 们 现在 修改 第 3 章 中 曾 多 次 用 到 的 WordCount 例 程 。 复制 NordCount3 .java， 重 命名 
为 WordCountTimeout .java， 并 添加 下 列 引 用 声明 。 


import java.util.concurrent.TimeUnit ; 
import org.apache.hadoop.fs.FileSystem ; 
import org.apache.hadoop.fs.FSDataOutputStream ; 


(3) 使 用 下 列 代码 替换 map 方 法 。 


public void map (Object key, Text value, Context context 
) throws IOException, InterruptedException { 

String lockfile - "/user/hadoop/hdfs.lock" 

Configuration config - new Configuration() ; 
FileSystem hdfs - FileSystem.get(config) ; 
Path path - new Path(lockfile) ; 
if (!hdfs.exists(path)) 
{ 
byte[] bytes = "A lockfile".getBytes() ; 

FSDataOutputStream out - hdfs.create(path) ; 
out.write(bytes, 0, bytes.length); 
out.close() 
TimeUnit.SECONDS.sleep(100) ; 
} 
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String[] words = value.toString().split(" ") ; 
for (String str: words) 
t 
word.set(str); 
context.write(word, one); 
} 
} 
} 
(4) 修改 类 名 ， 之 后 编译 WordcountTimeout .java 并 打包 为 jar 文 件 ， 在 集群 上 运行 
$ Hadoop jar wc.jar WordCountTimeout test.txt output 
11/12/11 19:19:51 INFO mapred.JobClient: map 50% reduce 0% 
11/12/11 19:20:25 INFO mapred.JobClient: map 0% reduce 0% 
11/12/11 19:20:27 INFO mapred.JobClient: Task Id : attempt 2011121 
11821 0004 m 000000 0, Status : FAILED 
Task attempt 201112111821 0004 m 000000 0 failed to report status 
for 32 seconds. Killing! 
11/12/11 19:20:31 INFO mapred.JobClient: map 100% reduce 0% 
11/12/11 19:20:43 INFO mapred.JobClient: map 100% reduce 100% 
11/12/11 19:20:45 INFO mapred.JobClient: Job complete: 
job 201112111821 0004 
11/12/11 19:20:45 INFO mapred.JobClient: Counters: 18 
11/12/11 19:20:45 INFO mapred.JobClient: Job Counters 
原理 分 析 
首先 ， 我 们 修改 了 Hadoop 的 默认 超时 属性 。 如 果 任 务 在 这 段 时 间 里 处 于 静默 状态 ， 那 么 这 


段 时 间 结 束 后 ，Hadoop 框 架 会 强制 结束 该 任务 。 





接着 , 我 们 对 WordCount3 进 行 修改 , 加 入 一 些 代码 让 该 任务 休 眼 100 秒 。 程序 中 用 到 了 HDFS 


上 的 文件 锁 ， 
不 加 上 文件 锁 ， 每 个 mapper 都 会 超时 最 终 导 致 作业 失败 。 


以 确保 只 有 一 个 任务 实例 处 于 休眠 状态 。 如 果 我 们 只 





4 在 map 操 作 中 加 入 休眠 声明 而 


一 展 身手 : 编写 代码 访问 HDFS 


RMH, FERAT 
Java 文 档 中 查阅 用 到 的 这 
模式 类 似 。 


绍 如 何 编 写 程序 访问 HDFS。 然 而 ， 注 意 一 下 上 例 中 的 代码 ， 并 在 
些 类 。 你 会 发 现 ， 很 大 程度 上 ， 


这 些 接口 与 访问 标准 Java 文 件 系 统 的 


然后 我 们 编译 源 代码 , 打包 类 文件 并 在 集群 上 执行 作业 。 第 一 个 任务 进入 休眠 状态 , 在 超过 
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设置 的 超时 闪 值 ( 该 值 以 毫秒 为 单位 ) 之 后 ，Hadoop 杀 死 该 任务 , 并 重新 安排 男 一 个 mapper 处 理 
该 任务 负责 处 理 的 split。 








1. Hadoop 对 运行 缓慢 的 任务 的 处 理 方式 

面 对 运 行 缓慢 的 任务 ，Hadoop 有 一 种 平衡 做 法 。 它 要 强制 结束 那些 卡 住 的 任务 ,或 者 由 于 
其 他 原因 运行 非常 缓慢 的 任务 。 但 有 些 时 候 , 复杂 任务 通常 需要 花费 较 长 时 间 。 尤其 是 依赖 其 他 
外 部 资源 完成 自身 运行 的 任务 ,往往 需 要 较 长 的 运行 时 间 。 

Hadoop 从 任务 进度 中 寻找 线索 ， 以 推断 其 处 于 空 闪 状态、 静默 状态 或 卡 住 状态 的 时 间 。 通 
常 来 讲 ， 线 索 来 源 包括 : 
a 输出 结果 ; 
口 向 计数 器 写 人 数值 ; 
口 明确 地 报告 进度 。 
对 于 后 者 ，Hadoop 提 供 了 Progressable 接 口 ， 该 接口 包含 一 个 有 趣 的 方法 。 











Public void progress() ; 





Context 类 实现 了 Progressable 接 口 ， 因 此 任意 mapper 或 者 reducer 都 可 以 调用 context . 
progress () 报告 作业 执行 的 进度 。 

2. 预测 执行 

通常 ， 一 个 MapReduce 作 业 包 括 多 个 离散 的 map 和 reduce 任 务 。 在 集群 上 运行 作业 时 ， 由 于 

台 主 机 配置 错误 或 者 发 生 故 障 导 致 该 主机 运行 的 任务 明显 落后 于 其 他 任务 的 风险 确实 存在 。 

为 了 解决 这 一 问题 ，Hadoop 会 在 map 或 reduce 阶 段 即将 结束 之 际 ， 在 集群 中 的 多 台 主 机 上 运 
行 相同 的 map 或 reduce 任 务 。 预 测 任务 执行 的 目的 在 于 ， 防 止 因 一 两 个 运行 缓慢 的 任务 对 整个 作 
业 的 运行 时 间 产 生 重 大 影响 。 

3. Hadoop 对 失败 任务 的 处 理 方 法 

运行 失败 的 任务 并 非 总 是 以 暂停 运行 的 形式 存在 。 有 时 它们 会 明确 地 抛 出 异常 、 中 止 运行 或 
以 其 他 有 声 方式 停止 运行 。 

Hadoop 的 3 个 配置 属性 决定 了 应 对 任务 故障 的 方式 ， 它 们 都 是 在 mapred-site.xml 文 件 中 
进行 设置 。 
口 mapred.map.max.attempts: 在 引起 作业 失败 之 前 ， 每 个 map 作 业 的 最 大 重 试 次 数 。 


O mapred.reduce.max.attempts: 在 引起 作业 失败 之 前 , 每 个 reduce 作 业 的 最 大 重 试 次 数 。 
D mapred.max.tracker.failures: 如 果 失 败 的 任务 数 超过 该 值 ， 整 个 作业 失败 。 
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上 述 属性 的 默认 值 都 是 4. 


请 注意 ， 如 果 mapred.tracker.max.failures 的 值 小 于 其 他 两 个 属性 中 
的 任何 一 个 ， 该 设置 都 不 会 生效 。 
配置 这 些 属性 中 的 哪 一 个 , 取决 于 数据 和 作业 的 性 质 。 如 果 作业 要 访问 的 外 
部 资源 可 能 经 常 出 现 暂时 错误 ,最 好 增 大 任务 的 重 试 次 数 。 但 如 果 任务 处 理 的 是 
特定 数据 , 这 些 属性 可 能 都 不 太 适 用 ,因为 失败 过 一 次 的 任务 依然 还 会 失败 。 无 
论 如 何 ， 大 于 1 的 默认 值 是 有 意义 的 ， 因 为 在 大 型 复杂 系统 中 ， 总 会 出 现 各 种 短 
暂 故 障 。 


一 展 身手 : 引发 任务 失败 


再 次 修改 WordCount 程 序 。 这 次 不 是 让 任务 休眠 ， 而 是 基于 随机 数 抛 出 RuntimeException。 
修改 集群 配置 并 研究 多 少 个 失败 的 任务 会 导致 整个 作业 失败 。 


6.9 数据 原因 造成 的 任务 故障 

我 们 将 要 讨论 的 最 后 一 类 故障 是 由 数据 引发 的 。 在 这 里 , 我 们 指 的 是 由 包含 错误 数据 的 记录 am 
导致 的 任务 故障 , 可 能 是 因为 数据 类 型 或 者 格式 错误 , 也 可 能 是 其 他 种 种 相关 问题 。 这些 情况 下 ， 
任务 接收 的 数据 往往 背离 了 我 们 的 预期 。 

1. 通过 编写 代码 处 理 异 常数 据 

处 理 异 常数 据 的 一 种 方法 是 ， 在 mapper 和 reducer 中 实现 防范 异常 数据 的 机 制 。 例 如 ， 假 如 
mapper 接 收 的 数据 应 该 是 一 系列 以 逗号 分 隔 的 值 , 那么 在 处 理 数据 之 前 首先 验证 数据 数目 是 否 正 
确 。 如 果 第 一 个 值 应 该 是 一 个 整数 的 字符 串 表 示 ， 确 保 字符 串 向 数字 类 型 的 转换 有 可 靠 的 错误 处 
理 机 制 和 默认 行为 。 

这 种 方法 的 问题 是 , 无 论 你 有 多 细心 ， 总 会 有 一 些 怪异 的 输入 数据 类 型 没有 考虑 到 。 你 是 否 
考虑 接收 不 同 unicode 字 符 集 的 值 ” 遇 到 多 个 字符 集 、 空 值 、 错误 结尾 的 字符 串 、 错 误 编码 的 转 义 
字符 等 情况 ， 该 怎么 办 呢 ? 

如 果 作 业 的 输入 数据 是 由 用 户 生 成 的 ， 或 者 受用 户 控制 ， 可 以 较 少 关注 这 些 可 能 性 。 然 而 ， 
果 用 户 处 理 的 数据 来 自 外 部 数据 源 ， 就 会 发 生 一 些 意 想 不 到 的 情况 。 

2. 使 用 Hadoop 的 skip 模 式 

另 一 种 方法 是 配置 Hadoop ， 让 它 以 其 他 方式 处 理 任 务 故 障 。 与 将 任务 故障 视 为 原子 事件 不 
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同 , Hadoop 试 图 识别 出 引发 问题 的 数据 , 并 在 将 来 的 任务 执行 中 跳 过 这 些 数据 。 这 种 机 制 被 称 为 
skip 模 式 。 假 如 你 遇 到 各 种 各 样 的 数据 问题 ， 而 又 不 想 编码 解决 这 些 问题 或 者 编码 解决 这 些 问题 
是 不 切实 际 的 ， 这 个 时 候 就 用 到 skip 模 式 了 。 又 或 者 ， 你 的 作业 使 用 了 第 三 方 库 ， 而 又 没有 这 些 

















出 于 其 他 考虑 ，skip 模 式 目前 仅 











库 的 源 代码 ， 可 能 只 能 使 用 skip 模 式 来 解决 数据 问题 了 。 


适用 于 0.20 之 前 版 本 的 API 编 写 的 作业 。 


6.10 “实践 环节 : 使 用 skip 模式 处 理 异 常数 据 


我 们 通过 实际 编写 一 个 MapReduce 作 业 来 学 习 skip 模 式 ， 该 作业 接收 的 数据 会 导致 其 运行 


失败 。 


(D) 将 下 列 Ruby 脚 本 保存 为 gendata.rb 文 件 。 


File.open("skipdata.txt", 
3.times do 


"w") do |£ile| 


500000.times(file.write("A valid record\n")} 
5.times(file.write("skiptextWin")) 


end 
500000.timesí(file.write 
End 


(2) 运行 脚本 。 


$ ruby gendata.rb 


("A valid recordWMn")) 


(3) 检查 生成 文件 的 大 小 及 其 行 数 。 


$ 1s -1h skipdata.txt 


-rw-rw-r-- 1 hadoop hadoop 29M 2011-12-17 01:53 skipdata.txt 
-$ cat skipdata.txt | wc -1 


2000015 


(4) 将 生成 的 skipdata.txt 数 据 拷 贝 到 HDFS 。 


$ hadoop fs -put skipdata.txt skipdata.txt 


(5) 在 mapred-site.xml 文 件 中 添加 下 列 属 性 。 


<property> 
<name>mapred.skip.map.max 
<value5</value> 
</property> 


(6) 检查 mapred.max.map.tas 


(7) 将 下 列 Java 代 码 保 存 为 Skip] 





.Skip.records</name> 


k.failures 的 值 ， 如 果 该 值 小 于 20 的 话 ， 将 其 设 为 20。 


Data.java 文 件 。 
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import java.io.IOException; 


import org.apache.hadoop.conf.* ; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.* ; 

import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 


public class SkipData 
{ 


public static class MapClass extends MapReduceBase 
implements Mapper<LongWritable, Text, Text, LongWritable> 
{ 


private final static LongWritable one = new 
LongWritable(1); 
private Text word - new Text("totalcount"); 


public void map(LongWritable key, Text value, 
OutputCollector«Text, LongWritable» output, 
Reporter reporter) throws IOException 
{ 


String line = value.toString(); 


if (line.equals("skiptext")) 
throw new RuntimeException("Found skiptext") 
output.collect(word, one); 





public static void main(String[] args) throws Exception 
{ 
Configuration config = new Configuration() ; 
JobConf conf - new JobConf(config, SkipData.class); 
conf.setJobName("SkipData"); 


conf.setOutputKeyClass(Text.class); 
conf.setOutputValueClass (LongWritable.class); 


conf.setMapperClass (MapClass.class); 

conf.setCombinerClass (LongSumReducer.class); 

conf.setReducerClass (LongSumReducer.class); 

FileInputFormat.setInputPaths(conf,args[0]) ; 

FileOutputFormat.setOutputPath(conf, new 
Path(args[11)) ; 

JobClient.runJob(conf); 


) 


(8) 编译 该 文件 ， 并 将 其 打包 为 skipdata.jar。 
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(9) 运行 作业 。 


$ hadoop jar skip.jar SkipData skipdata.txt output 
11/12/16 17:59:07 INFO mapred.JobClient: map 45% reduce 8% 
11/12/16 17:59:08 INFO mapred.JobClient: Task Id : attempt 2011121 
61623 0014 m 000003 0, Status : FAILED 
java.lang.RuntimeException: Found skiptext 
at SkipData$MapClass.map(SkipData.java:26) 
at SkipData$MapClass.map(SkipData.java:12) 
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50) 
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask. java:358) 
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:307) 
at org.apache.hadoop.mapred.Child.main(Child.java:170) 





11/12/16 17:59:11 INFO mapred.JobClient: map 42% reduce 8% 
11/12/16 18:01:26 INFO mapred.JobClient: map 70% reduce 16% 
11/12/16 18:01:35 INFO mapred.JobClient: map 71% reduce 16% 


11/12/16 18:01:43 INFO mapred.JobClient: Task Id : attempt 2011111 
61623 0014 m 000003 2, Status : FAILED 
java.lang.RuntimeException: Found skiptext 





11/12/16 18:12:44 INFO mapred.JobClient: map 99% reduce 29% 
11/12/16 18:12:50 INFO mapred.JobClient: map 100% reduce 29% 
11/12/16 18:13:00 INFO mapred.JobClient: map 100% reduce 100% 


11/12/16 18:13:02 INFO mapred.JobClient: Job complete: 
job 201112161623 0014 


(10) 检查 作业 输出 文件 的 内 容 。 


$ hadoop fs -cat output/part-00000 
totalcount 2000000 


(11) 在 输出 路 径 中 查看 跳 过 的 数据 。 


$ hadoop fs -1s output/ logs/skip 
Found 15 items 





-rw-r--r-- 3 hadoop supergroup 203 2011-12-16 18:05 / 
user/hadoop/output/ logs/skip/attempt 201112161623 0014 m 000001 3 
-rw-r--r-- 3 hadoop supergroup 211 2011-12-16 18:06 / 


user/hadoop/output/ logs/skip/attempt 201112161623 0014 m 000001 4 





(12) 通过 MapReduce UI 查看 作业 详情 ， 观 察 统 计数 据 ， 如 下 图 所 示 。 
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f$ Hadoop job 201112161623 0014 on head - Windows Internet Explorer [iS [x] 
G v je ttp://10.0.0.100:50030/jobdetails.jsp?jobid-job 201112161623 DD14&refresh-ü Fal *06 x 
Ele Edt View Favorites Tools Help 
«QQc[- Da: oc Eon E O B s o Quse yr eme: (nd x| + 
wp Favorites Æ Hadoop job_201112161623_0014 on head 
Kind |96 Complete | Num Tasks | Pending | Running | Complete | Killed B red 
map | 100009 8 0 0 a| "| 221 
reduce 100.00% 1 0 0 4 | 0 | 0/0 
Counter Map Reduce. Total 
Launched reduce tasks 0 0 1 
Rack-local map tasks 0 0 16 
Job Counters 
Launched map tasks 0 0 31 
Data-local map tasks 0 0 15 
SkippingTaskCounters | MapProcessedRecords 2,000,000 0, 2,000,000 
FILE BYTES READ 378 321 699 
HDFS BYTES READ 30,028,814 0130,028,814 
FileSystemCounters 
FILE BYTES WRITTEN 997 321 1318 
HDFS BYTES WRITTEN 670 19 689 
Reduce input groups 0 1 1 
Map skipped records j 15 0 15 
Combine output records 15 0 15 zi 
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原理 分 析 
上 例 中 ,我 们 完成 了 许多 设置 ， 现 在 将 对 其 进行 逐条 解释 。 


首先 ,我 们 需要 对 Hadoop 进 行 配置 ， 开 启 skip 模 式 ， 默 认 情 况 下 ， 该 模式 处 于 关闭 状态 。 关 
键 是 将 mapred.skip.map.max.skip.records 的 值 设 置 为 5， 这 就 是 说 ， 我 们 指令 Hadoop 框 架 跳 过 小 于 
5 条 记录 的 数据 集 。 请 注意 ,这 个 值 包括 无 效 记录 的 数量 ， 如 果 将 该 属性 的 值 设 为 0 ( 默认 设置 )， 
Hadoop 就 不 会 进入 skip 模 式 。 


我 们 也 检查 mapred.max.map.task.failures 的 值 ,确保 作业 会 重 试 足够 多 次 ,具体 原因 稍 后 解释 。 


接 下 来 ， 我 们 需要 使 用 一 个 测试 文件 模拟 异常 数据 。 我 们 编写 了 一 个 简单 的 Ruby 脚 本 生 
成 一 个 文件 ， 该 文件 包含 2 000 000 行 有 效 数 据 ， 以 及 分 散在 文件 中 的 3 组 无 效 数据 ， 每 组 包括 
5 条 无 效 记录 。 我 们 运行 该 脚本 ， 并 确认 生成 的 文件 确实 包括 2 000 01$ 行 。 然 后 ， 将 该 文件 放 
到 HDFS 上 。 


随后 ,我 们 编写 一 个 简单 的 MapReduce 作 业 统 计 有 效 记 录 数 量 。 作 业 每 次 从 输入 文件 读 取 一 
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行 ， 如 果 该 行为 有 效 记 录 ， 输 出 值 1， 最 终 这 些 输出 值 聚合 成 为 最 终 输出 值 。 当 遇 到 无 效 数 据 行 
时 ，mapper 抛 出 一 个 异常 并 失败 。 

接 下 来 编译 上 述 作 业 源 代码 ， 打 包 为 jar 文 件 ， 并 运行 作业 。 一段 时 间 后 ,作业 运行 结束 。 从 
作业 状态 摘要 中 可 以 看 出 ， 我 们 从 未 见 过 这 种 运行 模式 。 随 着 map 任 务 的 运行 ，map 进 度 计 数 需 
的 值 不 断 增 大 ， 但 当 任务 失败 时 ，map 任 务 进 度 后 退 然后 再 次 增 大 。 这 就 是 skip 模 式 。 

每 当 mapper 接 收 到 键 值 对 时 ，Hadoop 默 认 增 加 计数 器 的 值 ， 这 样 就 会 记录 哪 条 数据 引发 了 
故障 。 























A 如 果 map 或 reduce 任 务 并 非 直接 通过 map 或 reduce 方 法 的 参数 来 接收 输入 数 
据 ，( 例 如， 从 异步 进程 或 缓存 中 接收 数据 ) 你 就 需要 手动 更 新 此 计数 器 。 


任务 失败 时 ，Hadoop 在 相同 数据 块 上 重 试 , 但 只 试图 解决 无 效 的 记录 。 通 过 二 分 搜索 方法 ， 
Hadoop 框 架 在 数据 上 重 试 , 直到 跳 过 的 记录 数 小 于 我 们 之 前 设置 的 最 大 值 ( 本 例 中 该 值 为 5 )。 
为 Hadoop 框 架 要 找 的 是 跳 过 记录 的 最 佳 值 , 因此 这 个 过 程 会 导致 多 次 任务 重 试 和 失败 , 这 也 是 我 
们 需要 将 任务 重 试 次 数 设 置 为 略 大 于 通常 值 的 原因 。 


我 们 等 待 作业 持续 进行 这 种 往复 处 理 ， 完 毕 后 查看 输出 文件 的 内 容 。 该 文件 包含 2 000 000 
条 已 处 理 记录 ， 正 是 输入 文件 中 的 有 效 记录 数 。Hadoop 成 功 地 跳 过 了 3 组 无 效 记 录 。 


接着 ,我 们 检查 作业 输出 路 径 下 的 _logs 目 录 ， 发 现 该 目录 下 有 一 个 skip 目 录 ， 存 放 着 被 跳 
过 记录 组 成 的 序列 文件 。 


最 后 ， 通 过 MapReduce 网 页 用 户 接口 查看 整个 作业 的 状态 ， 既 包括 在 skip 模 式 下 处 理 的 记录 
数 ， 也 包括 跳 过 的 记录 数 。 请 注意 ,失败 的 任务 总 数 为 22。 但 这 个 数字 是 多 个 任务 失败 次 数 的 总 
和 ， 因 此 即 使 大 于 我 们 设置 的 map 任 务 重 试 次 数 也 是 合理 的 。 


是 否 开启 skip 模 式 


skip 模 式 可 有 效 解决 错误 数据 带 来 的 问题 。 但 正如 我 们 刚才 看 到 的 ， 因为 Hadoop 需 要 确定 跳 
过 哪些 范围 内 的 数据 ， 这 就 带 来 了 性 能 损失 。 在 我 们 的 测试 文件 中 ， 无 效 记 录 刚 好 被 分 为 3 组 ， 
它们 只 占 全 部 数据 集 的 很 小 一 部 分 ， 利于 Hadoop 在 skip 模 式 下 运行 。 但 如 果 输 入 数据 包含 许多 无 
效 记 录 ， 并 且 它 们 散布 于 文件 中 ， 更 有 效 的 办 法 可 能 是 使 用 预 处 理 Mapreduce 作 业 滤 掉 所 有 的 无 
效 记 录 。 

这 也 是 我 们 在 介绍 了 编写 代码 处 理 错误 数据 的 方法 之 后 ， 紧 接着 就 介绍 skip 模 式 的 原因 。 它 


们 都 是 你 应 当 掌握 的 有 效 技术 。 不 存在 什么 情况 下 哪 种 方法 更 好 的 问题 , 读者 需要 综合 考虑 输入 
数据 、 性 能 需求 以 及 是 否 具备 编写 处 理 代 码 的 条 件 等 因素 ， 然 后 决定 采用 哪 种 办 法 。 
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6.11 小结 


本 章 中 ， 我们 人 为 制造 了 许多 破坏 。 希望 你 永远 不 会 在 同一 天 遇 到 如 此 多 Hadoop 集 群 故障 。 
通过 学 习 处 理 这 些 故 障 ， 你 会 掌握 一 些 关 键 技术 。 


通常 ， 不 必 害 怕 Hadoop 的 组 件 发 生 故 障 。 尤 其 是 在 大 规模 集群 中 ， 一 些 组 件 或 主机 发 生 故 
障 是 司空 见 惯 的 事 ，Hadoop 在 设计 之 初 就 考虑 到 了 这 种 情况 并 提出 了 相应 的 处 理 方法 。HDFS 不 
仅 负 责 存储 数据 ， 还 管理 着 每 个 数据 块 的 副本 。 在 DataNode 进 程 意 外 结束 时 ，HDFS 会 安排 生成 
新 的 副本 。 

MapReduce 作 业 是 无 状态 的 。 如 果 某 个 TaskTracker 执 行 的 任务 发 生 故 障 , 通常 只 需 在 另外 的 
节点 上 重新 执行 相同 任务 。 这 个 方法 也 可 用 于 防止 发 生 故障 的 主机 拖 慢 整个 作业 的 进度 。 

HDFS 和 MapReduce 主 节点 的 故障 更 为 严重 。 特 别 是 , NameNode 进 程 保存 着 文件 系统 的 关键 
数据 ， 必 须 保 证 在 它 发 后 故障 时 有 一 个 新 NameNode 进 程 接班 。 

通常 来 说 ， 硬 件 故障 看 上 去 与 前 面 所 说 的 故障 比较 接近 ， 但 要 留意 发 生 关 联 故 障 的 可 能 4 
如 果 软 件 错误 导致 任务 故障 , Hadoop 会 按照 设置 限 值 重 置 多 次 。 由 数据 问题 引发 的 错误 可 以 通过 
采用 skip 模 式 解决 ， 尽管 它 会 带 来 性 能 损失 。 am 

现在 我 们 已 学 习 了 如 何 处 理 集群 故障 , 下 一 章 我 们 将 介绍 集群 设置 、 健 康 状况 和 集群 维护 方 
面 可 能 遇 到 的 问题 。 







































































系统 运行 与 维护 








我 们 不 能 光 是 在 Hadoop 集 群 上 运行 写 好 的 程序 进行 智能 数据 分 析 ， 同 时 
也 得 负责 维护 集群 ， 做 好 数据 处 理 的 准备 工作 。 


本 章 包括 以 下 内 容 : 


a 讨论 更 多 的 Hadoop 配 置 属性 ; 
口 如 何 挑选 集群 硬件 ; 

O Hadoop 安 全 机 制 的 工作 原理 ; 
口 管理 NameNode; 

口 管理 HDFS; 

口 管理 MapReduce; 

口 扩展 集群 规模 。 


尽管 对 上 述 话题 的 讨论 都 只 停留 在 操作 层面 , 但 是 我 们 依然 可 以 通过 学 习 这 些 内 容 , 研究 一 
些 从 未 尝试 的 Hadoop 功 能 。 因 此 ， 即 使 读者 并 不 需要 亲自 管理 集群 ， 这 些 信息 也 是 有 用 的 。 





















































7.1 XT EMR 的 说 明 


使 用 Amazon Web Services 之 类 的 云 服 务 的 好 处 之 一 是 , 云 服务 提供 者 负责 大 部 分 系统 维护 工 
作 。 弹 性 MapReduce 既 可 以 创建 执行 单个 任务 的 Hadoop 和 集群 ( 非 永久 作业 流 )， 也 可 以 创建 长 期 
运行 的 执行 多 个 作业 的 集群 ( 永久 作业 流 ),。 当 使 用 非 永久 作业 流 时 , 在 很 大 程度 上 , 底层 Hadoop 
集群 的 配置 和 运行 方式 对 用 户 是 不 可 见 的 。 因此, 使 用 非 永久 作业 流 的 用 户 不 需要 考虑 本 章 的 很 
多 话题 。 如 果 用 户 使 用 EMR 执 行 永久 作业 流 ， 那 么 就 和 本 章 的 多 个 话题 ( 并 非 全 部 话题 ) 相关 。 


一 般 来 讲 ， 本 章 讨 论 的 是 本 地 Hadoop 集 群 。 如 果 用 户 需 要 重新 配置 永久 作业 流 ， 按 照 第 3 章 
的 内 容 设置 相同 的 Hadoop 属 性 即 可 。 
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7.2 Hadoop 配置 属性 


在 运行 集群 之 前 ， 我 们 来 讨论 一 下 Hadoop 的 配置 属性 。 一 直 以 来 ,我们 介绍 了 很 多 Hadoop 
的 配置 属性 ， 但 还 有 一 些 其 他 内 容 值得 深入 思考 。 











默认 值 
让 Hadoop 新 用 户 感到 最 为 困惑 的 就 是 配置 属 ; 
么 意思 ? 它们 的 默认 值 是 什么 ? 


如 果 你 使 用 的 是 Hadoop 的 完整 版 本 ,或 者 说 不 仅仅 是 二 进 制版 本 ,下面 这 些 XML 文 件 会 回 
答 你 的 问题 。 











Es 


生 太 多 。 它 们 包含 在 哪个 文件 里 面 ? 它们 是 什 











D Hadoop/src/core/core-default.xml 
D Hadoop/src/hdfs/hdfs-default.xml 








D Hadoop/src/mapred/mapred-default.xml 
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幸运 的 是 ,XML 文档 不 是 查看 这 些 默 认 值 的 唯一 选择 ,我 们 还 可 以 选择 可 读 性 更 强 的 HTML 
版 本 。 下 面 我 们 将 快速 浏览 HTML 版 的 默认 配置 。 
Hadoop 二 进 制版 中 不 包含 这 些 HIML 文件 。 如 果 读 者 使 用 的 正 是 二 进 制版 的 Hadoop 安装 
包 ， 也 可 以 在 Hadoop 网 站 上 找到 这 些 文件 。 


(1) 使 用 浏览 器 打开 Hadoop 安装 路 径 下 的 docs/core-default.html 文件 ， 并 浏览 其 内 
容 。 相 应 的 页 面 如 下 图 所 示 。 


























adocp.lti.flter iritializers 
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(2) 通过 类 似 方 法 浏览 其 他 两 个 文件 。 


ü Hadoop/docs/hdfs-default.html 
L] Hadoop/docs/mapred-default.html 





原理 分 析 





如 你 所 见 ， 每 个 属性 都 包含 名 称 、 默 认 值 及 简要 描述 。 还 会 看 到 ,确实 有 很 多 配置 属性 。 现 
在 别 想 着 能 理解 所 有 属性 的 含义 ,但 要 花 点 时 间 了 解 Hadoop 支 持 的 自 定义 类 型 。 
































7.8.4 ”附加 的 属性 元 素 
刚才 ,我们 设置 配置 文件 中 的 属性 时 用 到 了 XML 元 素 ， 它 们 的 格式 如 下 所 示 。 








<property> 
<name>the.property.name</name> 
<value>The property value</value> 
</property> 


我 们 可 以 增加 两 个 可 选 的 XML 元 素 ， 它 们 是 description 和 final。 使 用 了 上 述 两 个 附加 
元 素 的 完整 属性 应 如 下 所 示 。 











<property> 

<name>the.property.name</name> 

<value>The default property value</value> 

<description>A textual description of the property</description> 

<final>Boolean</final> 

</property> 

description 元 素 很 明显 ， 无 需 太 多 解释 ， 使 用 它 可 以 为 HTML 文 件 中 的 每 个 
文本 。 

final 元 素 的 含义 与 它 在 Java 中 的 含义 类 似 : 用 户 无 法 使 用 其 他 文件 中 指定 的 属性 值 改写 包 
含 final 元 素 的 属性 的 值 ， 也 没有 其 他 方法 可 以 覆盖 该 属性 。 稍 后 我 们 会 看 到 这 样 的 例子 。 在 关 
系 到 集群 性 能 、 完 整 性 、 安 全 性 或 由 于 其 他 原因 ， 用户 希望 在 整个 集群 中 使 用 同一 个 属性 值 的 情 
况 下 ， 可 以 在 这 些 属性 中 使 用 final 元 素 。 























Hl 


性 提供 描述 性 












































7.83.0 默认 存储 位 置 
用 户 可 以 通过 配置 存储 位 置 这 一 属性 ， 改 变 Hadoop 在 本 地 硬盘 和 HDFS 上 的 数据 存储 位 置 。 
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hadoop .tmp .dir 是 其 他 属性 的 基础 ， 它 是 所 有 Hadoop 文 件 的 根 目 录 ， 其 默认 值 为 /tmp。 


遗憾 的 是 ， 包 括 Ubuntu 在 内 的 许多 Linux 版 本 在 每 次 重启 时 都 会 清空 该 目录 的 内 容 。 这 就 意 
味 着 ， 如 果 用 户 不 修改 这 个 属性 的 值 ， 就 会 在 下 次 重启 时 丢失 所 有 HDFS 数 据 。 因 此 ， 有 必要 像 
下 面 这 样 改写 core-site.xml 文 件 中 的 hadoop .tmp.dir 属 性 的 值 。 
































<property> 
<name>hadoop.tmp.dir</name> 
<value>/var/lib/hadoop</value> 
</property> 


别 筷 了 ， 要 确保 Hadoop 用 户 对 该 位 置 具 有 写 人 权限 。 同时 ， 该 目录 所 在 的 硬盘 有 充足 空间 。 
稍 后 你 会 看 到 ， 有 许多 其 他 属性 可 以 更 细 粒 度 地 控制 特定 类 型 数据 的 存储 位 置 。 














7.3.3 设置 Hadoop 属 性 的 几 种 方式 


刚才 ， 我 们 使 用 了 配置 文件 对 Hadoop 的 属性 值 进行 设置 。 这 是 一 种 设置 Hadoop 配 置 属性 的 
有 效 途 径 , 但 如 果 我 们 想 试 着 找 出 某 个 属性 的 最 佳 值 ， 或 者 需要 在 执行 某 一 作业 的 时 候 设置 特殊 
值 ， 这 种 方法 就 显得 有 点 繁琐 。 


我 们 可 以 使 用 rzobconf 类 编写 程序 为 正在 运行 的 作业 设置 配置 属性 。 该 类 支持 两 种 函数 : 一 
类 函数 用 于 设置 某 个 特定 属性 的 值 ， 比 如 我 们 曾 看 到 的 设置 作业 名 称 、 输 入 输出 格式 及 其 他 属性 
的 值 。 另 一 种 函数 用 来 设置 作业 的 map 和 reduce 任 务 数 等 。 


此 外 ， 还 有 一 些 通用 方法 ， 如 下 所 示 。 









































DVoid set(String key, String value); 
口 Void setIfUnset (String key, String value); 





口 Void setBoolean( String key, Boolean value); 





ü Void setInt (String key, int value); 


这 些 函 数 的 使 用 更 为 灵活 ,用 户 无 需 为 每 个 要 修改 的 属性 都 创建 一 个 专用 方法 。 然 而 , 这 些 
函数 都 缺少 编译 时 检查 机 制 。 这 就 意味 着 ,如果 使 用 一 个 无 效 的 属性 名 或 为 某 个 属性 指定 了 错误 
类 型 ， 可 能 直到 函数 运行 时 才 会 发 现 这 些 问题 
































i 


用 户 既 可 以 编写 程序 来 设置 属性 值 ， 也 可 以 在 配置 文件 中 设置 属性 值 。 这 

就 是 为 配置 属性 设计 final 元 素 的 一 个 重要 原因 。 假如 用 户 不 希望 某 些 属性 的 

- 值 被 提交 的 MapReduce 作 业 履 盖 ， 就 需要 在 主 配 置 文件 中 为 这 些 属性 添加 
Einal 元 素 。 








7.4 集群 设置 


在 学 习 如 何 维护 集群 ， 使 其 保持 运转 之 前 ， 我 们 需要 首先 研究 如 何 设 置 集群 。 








7.4.1 为 集群 配备 多 少 台 主 机 


在 考虑 Hadoop 新 集群 时 ， 第 一 个 问题 就 是 首次 为 该 集群 配备 多 少 台 主 机 。 我 们 知道 ， 随 着 
业务 所 需 计算 能 力 的 增长 ,可 以 在 集群 中 新 增 节 点 , 但 我 们 也 想 在 设计 之 初 即 分 配合 适 的 主机 数 ， 
免得 马上 就 需要 增加 新 节点 。 


这 个 问题 还 真是 没有 明确 的 答案 , 它 在 很 大 程度 上 依赖 于 要 处 理 的 数据 集 规模 和 要 执行 的 作 
业 的 复杂 程度 。 我 们 只 能 近似 地 说 ， 节 点 数 至 少 要 与 复制 因子 n 持 平 。 请 记 住 ， 节 点 是 会 发 生 故 
障 的 ,如 果 集 群 中 的 节点 数 等 于 复制 因子 , 那么 任意 一 个 节点 故障 都 会 造成 数据 块 的 副本 数 低 于 
复制 因子 。 在 大 部 分 由 数 十 个 或 数 百 个 节点 组 成 的 集群 中 ,这 个 问题 不 足 为 虑 。 但 在 很 小 的 集群 
中 ， 如 果 复 制 因 子 是 3， 最 安全 的 方案 是 用 5 台 主 机 构建 集群 。 


1. 计算 节点 的 可 用 空间 


确定 集群 所 需 节 点 的 直观 方法 是 ， 评 估 要 用 该 集群 处 理 的 数据 集 的 规模 。 如 果 要 处 理 10 TB 
数据 ， 并 且 主 机 硬盘 空间 为 2 TB ， 结 论 就 是 至 少 需要 5 台 主 机 。 


这 是 不 对 的 , 因为 它 没有 把 复制 因子 和 临时 空间 的 因素 考虑 进去 。 回 想 一 下 ,mapper 的 输出 
被 写 到 本 地 硬盘 ， 再 被 reducer 读 取 。 我 们 需要 把 这 个 较 大 的 硬盘 使 用 率 考 虑 进去 。 


一 种 好 的 做 法 是 ， 假 设 复制 因子 为 3， 同 时 临时 空间 要 占用 25% 的 硬盘 原始 空间 。 基 于 上 述 
假设 ， 要 在 主机 硬盘 空间 为 2 TB 的 集群 上 处 理 10 TB 数据 ， 所 需 主 机 数 的 计算 方法 如 下 。 


口 用 主机 存储 空间 总 量 除 以 复制 因子 。 

2 TB/3 = 666 GB 

口 在 此 基础 上 减 去 25% 的 临时 数据 存储 空间 。 

666 GB * 0.75 = 500 GB 

a 因此 ， 每 个 硬盘 存储 空间 为 2TB 的 节点 只 有 大 约 500 GB (0.5 TB) 的 可 用 空间 。 
O 数据 集 规模 除 以 该 值 ， 结 果 即 为 所 需 的 节点 数 。 

10 TB / 500 GB = 20 


所 以 ， 处 理 10 TB 数据 的 集群 最 少 需要 20 个 节点 ， 它 是 我 们 初步 估算 值 的 4 倍 。 


所 需 节点 数 多 于 预期 , 这 种 情况 很 普遍 。 在 考虑 主机 规格 的 时 候 要 记 住 这 个 前 提 ， 本章“ 硬 
件 选 型 ”会 讲 到 这 个 问题 。 







































































































































































74 集群 设置 175 





2. 主 节 点 的 位 置 


下 一 个 问题 是 ,在 哪 台 主机 上 运行 NameNode、JobTracker 和 SecondaryNameNode。 我 们 曾 看 
到 过 ,DataNode 可 以 与 NameNode 运 行 在 同一 台 主 机 上 ， TaskTracker 也 可 以 和 JobTracker 共 同和 运行 
在 一 台 主 机 上 ， 但 这 并 不 是 产品 集群 的 主流 设置 。 


我 们 将 看 到 ，NameNode 和 SecondaryNameNode 有 一 些 特殊 的 资源 需求 ， 所 有 可 能 影响 这 两 
个 主 节点 性 能 的 因素 都 可 能 拖 慢 整个 集群 的 运算 性 能 。 


最 理想 的 情况 是 ， 在 专用 主机 上 运行 NameNode 、JobTracker 和 SecondaryNameNode。 然 而 ， 
在 规模 很 小 的 集群 中 ， 这 将 明显 增加 人 硬件 成 本 ， 却 不 一 定 能 够 从 中 充分 受益 。 


如 果 可 能 的 话 , 首先 应 当 在 一 台 专 用 主机 上 运行 NameNode、 JobTracker 和 SecondaryNameNode， 
不 要 在 这 台 专 用 主机 上 再 运行 任何 DataNode 或 者 TaskTracker 进 程 。 随 着 集群 规模 增长 ,可 以 在 集 
群 中 新 增 一 台 服 务 器 主机 ， 并 把 NameNode 迁 移 到 该 主机 ， 让 JobTracker 和 SecondaryNameNode 运 
行 在 同一 台 主 机 上 。 最 后 ， 随 着 集群 规模 的 进一步 增长 ， 有 必要 再 把 JobTracker 和 
SecondaryNameNode 分 开 ， 分 别 在 单独 的 主机 上 运行 。 




















就 像 在 第 6 章 中 所 讨论 的 ，Hadoop 2.0 会 把 Secondary NameNode 分 为 Backup 

WA NameNode 和 Checkpoint NameNode。 最 好 分 别 在 不 同 的 专用 主机 上 运行 Backup 

$2 NameNode 和 Checkpoint NameNode , 但 在 条 件 不 足 的 情况 下 ,至 少 要 保证 Backup 
NameNode 运 行 在 一 台 专 用 主机 上 。 


3. 硬件 选 型 


在 确定 节点 所 用 硬件 规格 时 , 不 能 只 考虑 要 存储 的 数据 量 大 小 。 除 此 之 外 , 还 要 考虑 节点 的 
处 理 能 力 、 内 存 大 小 、 存 储 类 型 以 及 网 络 带 宽 。 


我 们 讨论 了 很 多 为 Hadoop 集 群 选用 硬件 的 内 容 ， 再 次 声明 ,没有 一 个 答案 适用 于 各 种 情况 。 
MapReduce 作 业 的 类 型 在 硬件 选 型 中 起 着 决定 性 作用 , 尤其 是 , 这 些 作 业 是 否 受 限于 CPU、 内 存 、 
IO 或 其 他 硬件 的 性 能 。 

4. 处 理 器 /内 存 /硬盘 空间 比 


考虑 作业 是 否 受 限于 处 理 器 、 内 存 或 者 IO 的 一 个 好 办 法 是 检查 CPU/ 内 存 /硬盘 空间 比 。 例 如 ， 
在 考虑 CPU/ 内 存 / 硬 盘 空间 比 的 情况 下 ， 我 们 认为 一 台 有 着 8 GB 内 存 、2 TB 硬盘 的 四 核 主机 相当 
于 一 台 内 存 大 小 为 4 GB 、 硬 盘 大 小 为 1 TB 的 双核 主机 。 


然后 , 检查 一 下 将 要 运行 的 MapReduce 作 业 的 类 型 这样 的 比率 是 否 合 适 ? 换 句 话 说 ,数据 
处 理 任务 更 依赖 于 哪 种 资源 ?是 否 需 要 一 种 比较 平衡 的 配置 ? 
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当然 , 最 好 通过 原型 设计 和 各 种 指标 来 评估 这 个 问题 , 但 有 时 候 这 些 方法 却 行 不 通 。 如 果 行 
不 通 的 话 ， 考 虑 一 下 作业 的 哪个 阶段 最 耗资 源 。 例 如 ， 我 们 曾 见 过 一 些 IO 密 集 型 作业 ， 它 们 从 
硬盘 读 取 数据 ， 执 行 简单 的 转换 之 后 就 把 结果 写 回 硬 盘 。 如 果 我 们 的 工作 任务 具有 这 样 的 特点 ， 
可 能 需要 使 用 存储 空间 更 大 的 硬盘 ( 尤其 是 在 通过 使 用 多 个 硬盘 增加 IO 的 情况 下 时 )， 可 以 相应 
地 减少 CPU 和 内 存 。 


相反 , 执行 繁重 的 数字 运算 任务 的 作业 需要 更 多 的 CPU , 那些 创建 或 使 用 大 型 数据 结构 的 作 
业 则 需要 更 大 的 内 存 。 


也 可 以 从 作业 的 限制 因素 的 角度 考虑 这 个 问题 。 运行 中 的 作业 是 计算 密集 型 ( 处 理 咒 满 功率 
运作 、 内 存 和 IO 过 剩 ) 内存 密集 型 ( 物理 内 存 已 满 并 有 部 分 数据 交换 到 硬盘 、CPU 和 IO 过 剩 )， 
或 IO 密集 型 (CPU 和 内 存 过 剩 ， 但 从 硬盘 读 写 数据 的 速度 已 达到 最 大 ) 中 的 哪 一 类 ?是 否 能 通 
过 增加 相应 的 硬件 来 改善 这 些 状 况 ? 


当然 ,用户 需要 不 断 调整 并 优化 硬件 配置 ， 因 为 一 旦 解决 了 某 个 限制 因素 后 , 男 一 个 原本 
不 明显 的 问题 就 会 暴露 出 来 。 所 以 一 定 要 记 住 ， 整体 思路 是 在 作业 应 用 场景 中 达到 最 佳 的 性 能 
配置 。 


假如 你 确实 不 知道 作业 的 性 能 特点 , 又 该 怎么 办 呢 ? 理想 情况 是 , 基于 现 有 硬件 进行 原型 设 
计 , 并 使 用 该 原型 系统 辅助 决策 。 但 是 , 假如 这 些 都 无 法 实现 ， 用 户 只 能 不 断 调整 配置 并 通过 实 
验 来 验证 某 种 配置 是 否 合适 。 请 记 住 , Hadoop 文 持 使 用 不 同 规格 的 硬件 , 尽管 统一 规格 的 硬件 最 
终 会 简化 集群 的 创建 , 所 以 搭建 一 个 最 小 规模 的 集群 并 评估 硬件 是 否 合适 。 这些 评估 结论 可 以 为 
购买 新 主机 或 升级 现 有 硬件 提供 辅助 信息 。 


5. 基于 EMR 进 行 原型 设计 


回想 一 下 , 在 弹性 MapReduce 集 群 中 配置 作业 时 ,我 们 会 为 主 节点 、DataNode 和 TaskTracker 
选择 不 同类 别 的 便 件 。 假 如 你 打算 在 EMR 上 运行 作业 ，EMR 平 台 提 供 了 调整 硬件 配置 的 内 置 方 
案 ， 可 以 找到 既 满 足 价格 预算 又 符合 执行 速度 要 求 的 硬件 。 


但 是 ,假如 读者 不 打算 在 EMR 上 运行 作业 ， 还 可 以 把 它 用 作 重 要 的 原型 设计 平台 。 假 如 用 
户 在 为 集群 选 配 硬件 却 不 知道 作业 的 性 能 特点 ,可 以 考虑 在 EMR 上 进行 原型 设计 以 深入 理解 作业 





























































































































寺 点 。 尽 管 这 样 可 能 会 支付 一 些 未 曾 考虑 过 的 EMR 服 务 费用 , 但 这 些 费 用 远 远 小 于 买 了 一 堆 完 全 
不 合适 的 硬件 的 开销 。 


7.4.2 ”特殊 节点 的 需求 


并 非 所 有 主机 的 硬件 需求 完全 相同 。 尤 其 是 ， 承 载 NameNode 进 程 的 主机 的 硬件 可 能 与 运行 
DataNode 和 TaskTracker 的 主机 硬件 完全 不 同 。 
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回想 一 下 ，NameNode 在 内 存 中 维护 了 HDFS 文 件 系统 ， 文 件 、 路 径 、 数 据 块 、 节 点 之 间 的 
映射 关系 ， 以 及 与 上 述 内 容 相 关 的 多 种 元 数据 。 这 就 意味 着 ，NameNode 可 能 会 受 限于 内 存 , 与 
其 他 主机 相 比 ， 它 需要 更 大 的 内 存 ， 尤 其 是 在 集群 规模 很 大 或 HDFS 上 存储 了 大 量 文件 时 ， 
NameNode 对 内 存 的 需求 更 为 强烈 。 我 们 通常 为 DataNode 或 TaskTracker 选 配 16 GB 内 存 ， 但 却 需 
要 为 NameNode 选 配 64 GB 的 内 存 ， 甚 至 更 大 。 如 果 NameNode 的 物理 内 存 已 耗 尽 并 开始 使 用 虚拟 
内 存 ， 这 将 严重 影响 集群 性 能 。 


然而 ， 尽 管 对 物理 内 存 而 言 ，64 GB 已 不 是 一 个 小 数字 ， 但 对 现在 的 硬盘 空间 而 言 ， 这 个 数 
字 还 是 太 小 。 由 于 NameNode 节 点 的 硬盘 只 负责 存储 文件 系统 镜像 ， 不 需要 为 其 配备 常用 于 
DataNode 的 大 容量 硬盘 。 我 们 更 关注 的 是 NameNode 的 可 靠 性 ， 所 以 需要 按照 元 余 配 置 的 要 求 为 
其 配备 多 块 硬盘 。 因 此 ， 为 了 达到 宛 余 备份 的 目的 ， 与 大 容量 硬盘 相 比 ，NameNode 主 机 更 喜欢 
选用 多 块 小 容量 硬盘 。 


总 的 来 讲 ，NameNode 主 机 与 集群 中 其 余 主 机 不 同 。 这 也 是 我 们 之 前 建议 只 要 预算 允许 ， 就 
将 NameNode 迁 移 到 专用 主机 上 的 原因 ， 因 为 它 的 特殊 硬件 需求 较为 容易 满足 。 





























SecondaryNameNode ( Hadoop2.0 中 的 CheckpointNameNode 和 BackupName- 

GC Node) 对 硬件 的 需求 与 NameNode 相 同 。 因 为 它 起 的 是 备份 替代 作用 ， 用 户 可 以 

一 在 更 通用 的 主机 上 运行 SecondaryNameNode。 但 如 果 主 节点 发 生 故障 ， 用 户 需 要 
将 NameNode 迁 移 到 备用 节点 时 ， 通 用 硬件 可 能 会 带 来 麻烦 。 


7.4.8 不 同类 型 的 存储 系统 


尽管 用 户 可 能 在 “处 理 器 、 内 存 、 硬 盘存 储 空间 或 1O 的 相对 重要 性 ”这 一 问题 上 坚持 自己 
的 观点 ， 这 些 争论 通常 都 以 应 用 程序 的 需求 、 硬 件 特点 和 指标 为 基础 。 但 是 , 在 讨论 选用 哪 种 类 
型 的 存储 系统 时 ， 人 们 经 常会 因为 根深 蒂 固 的 观念 而 发 生 激烈 的 争执 。 


1. 通用 存储 与 企业 级 存储 的 对 比 


第 一 个 争议 是 选用 通用 硬盘 还 是 选用 企业 用 户 硬 盘 呢 ? 哪 种 选择 更 有 意义 ? 前 者 ( 主要 是 
SATA 硬 盘 ) 体积 较 大 ， 价 格 更 便宜 ， 读 写 速度 相对 较 慢 ， 平 均 无 故障 时 间 (MTBF ) 更 短 。 企 业 
级 人 硬盘 使 用 了 SAS 或 光纤 通道 技术 , 总 体 上 更 为 小 巧 , 价格 更 高 , 读 写 更 快 , 平均 无 故障 时 间 较 长 。 


2. 独立 硬盘 与 RAID 的 对 比 


第 二 个 问题 是 选择 哪 种 硬盘 配置 方式 。 企 业 级 的 解决 方案 是 使 用 廉价 磁盘 兄 余 阵列 (RAID ) 
把 多 个 硬盘 聚合 成 一 个 独立 的 逻辑 存储 设备 。 它 以 损失 整体 存储 能 力 以 及 读 写 速率 为 代价 ,可 以 
不 动 声色 地 解决 一 个 或 多 个 硬盘 的 故障 。 
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另 一 种 方案 是 独立 使 用 每 个 硬盘 ， 以 达到 总 体 存储 能 力 和 IO 最 大 化 ,但 其 缺点 是 ， 在 某 个 
硬盘 发 生 故 障 的 情况 下 ， 主 机 就 会 宕 机 。 


3. 综合 考虑 


在 许多 方面 ，Hadoop 系 统 会 假设 硬件 故障 不 可 避免 。 从 这 个 角度 来 看 ， 可 能 不 需要 使 用 传 
统 的 企业 关注 的 存储 功能 。 反 而 可 以 使 用 许多 大 体积 的 廉价 硬盘 增 大 整体 存储 能 力 , 通过 并 行 读 
写 提高 1/O 知 吐 率 。 单 个 硬盘 的 故障 可 能 导致 主机 失败 ,但 我 们 已 学 习 过 ,集群 会 处 理 这 个 故障 。 


这 是 一 个 非常 有 效 的 方案 , 它 在 许多 情况 下 发 挥 了 重要 作用 。 但 是 , 这 个 方案 忽视 了 修复 故 
障 主机 的 成 本 。 如 果 用 户 使 用 的 集群 就 在 隔壁 房间 , 并 且 手 头 上 有 许多 闲置 硬盘 ， 主 机 修复 工作 
就 是 一 个 不 耗 时 的 、 易 实现 的 、 低 成 本 的 任务 。 但 是 ， 如 果 用 户 集群 运行 在 商业 托管 设备 上 ， 亲 
自动 手 的 维护 成 本 相对 较 高 。 如 果 用 户 使 用 的 是 完全 托管 的 服务 器 ,需要 向 服务 提供 者 支付 维护 
费用 , 那么 维护 成 本 会 更 高 。 在 这 种 情况 下 , 虽然 使 用 RAID 会 减少 整体 容量 以 及 降低 IO 吞吐 率 ， 
但 其 能 够 降低 维护 成 本 ， 也 是 一 种 值得 考虑 的 方案 。 


4. 网 络 存储 系统 


最 没 道理 的 就 是 使 用 网 络 存储 系统 作为 主 集群 存储 系统 。 不 管 是 通过 SAN (Storage Area 
Network， 存 储 区 域 网 络 ) 技术 实现 的 数据 块 存储 还 是 通过 NFS ( Network File System， 网 络 文件 
系统 ) 或 类 似 协议 实现 的 基于 文件 的 网 络 存储 , 这 些 方案 都 引入 了 一 些 不 必要 的 瓶颈 问题 和 可 能 
引发 故障 的 共享 设备 ， 从 而 限制 了 Hadoop。 

但 是 , 某 些 时 候 ,， 由 于 一 些 非 技术 原因 ,你 不 得 不 采用 类 似 方 案 。 并 不 是 说 采用 这 些 方案 会 
导致 Hadoop 停 止 工作 ， 而 是 会 影响 Hadoop 的 运行 速度 以 及 容错 能 力 。 因 此 ， 用 户 要 能 够 正确 理 
解 采用 这 些 方案 带 来 的 后 果 。 


























































































































7.4.4 Hadoop 的 网 络 配置 


与 它 对 存储 设备 的 支持 相 比 ，Hadoop 对 网 络 设备 的 支持 要 简单 得 多 。 因 此 ， 与 CPU、 内 存 
和 硬盘 选择 相 比 ， 用 户 可 选 的 网 络 设备 硬件 少 之 又 少 。 目前 ，Hadoop 只 支持 一 台 网 络 设备 , 并 且 
无 法 把 一 台 主 机 上 的 所 有 4 千 兆 以 太 网 连接 聚合 成 4 千 兆 吞吐 量 。 如 果 用 户 需 要 的 网 络 吞 吐 量 大 于 
1 千 兆 ， 除 非 硬件 或 操作 系统 可 以 把 多 个 端口 整合 成 Hadoop 有 眼中 的 一 台 网 络 设备 ， 和 否则 唯一 的 办 
法 就 是 使 用 10 千 兆 以 太 网 设备 。 


1. 数据 块 放 置 策略 


我 们 讨论 了 很 多 HDFS 使 用 副本 作为 元 余 备 份 的 内 容 , 但 还 没有 研究 Hadoop 如 何 决定 放置 数 
据 块 副本 的 位 置 。 
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在 大 多 数 传统 服务 器 群 中 , 各 种 主机 ( 包括 网 络 设 





备 和 其 他 设备 ) 都 被 放置 在 标准 尺寸 的 机 

















TB E, 垂直 地 一 层 一 层 地 堆 达 起 来 。 每 个 机 柜 通 常 都 有 一 个 为 其 供电 的 通用 配 电 装 置 ， 此 外 还 有 
一 个 网 络 交换 器 用 于 将 机 柜上 的 主机 接 人 到 更 广泛 的 网 络 。 





基于 这 种 结构 ， 我 们 可 以 确定 三 大 类 故障 类 型 : 














请 记 住 ，Hadoop 目 前 不 支持 分 布 于 多 
> 障 极 有 可 能 导致 集群 前 溃 。 








口 影响 单 台 主机 的 故障 (例如 ，CPU、 内 存 、 硬 盘 、 主 板 故障 ); 
口 影响 机 柜上 所 有 主机 的 故障 ( 比如 ， 供 电 装置 或 交换 机 故障 ); 
O 影响 整个 集群 的 故障 ( 例如 ， 更 多 电源 或 网 络 故障 ， 制 冷 或 环境 监测 系统 运行 中 断 )。 


个 数据 中 心 的 集群 ， 因 此 ， 第 三 类 故 





默认 情况 下 ，Hadoop 按 照 每 个 节点 都 在 同一 个 物理 机 柜上 那样 处 理 节点 。 这 就 意味 着 ,每 
对 主机 之 间 的 带宽 和 时 延 近似 相等 ， 并 且 每 个 节点 受 相 关 故 障 影响 的 可 能 性 与 其 他 节点 相同 。 








2. 机 柜 认 知 























但 是 , 如 果 用 户 使 用 了 多 机 柜 结 构 , 或 采用 了 与 先前 假设 矛盾 的 其 他 配置 , 用 户 可 以 为 每 个 
节点 提供 向 Hadoop 报 告 其 所 在 机 柜 ID 的 能 力 。Hadoop 会 在 安排 副本 位 置 时 考虑 到 这 一 点 。 

在 这 种 设置 中 ，Hadoop 设 法 将 某 个 节点 的 第 一 个 副本 放置 在 该 主机 上 ， 第 二 个 副本 放置 在 
同一 个 机 柜 中 的 另 一 台 主 机 上 ， 第 三 个 副本 放 在 其 他 机 柜 中 的 一 台 主 机 上 。 














这 种 策略 较 好 地 平衡 了 性 能 和 可 用 性 这 两 个 因素 。 





在 机 柜 带 有 自己 的 网 络 交 换 机 时 , 同一 机 


柜 内 部 主机 之 间 的 通信 比 它 与 男 一 机 柜上 主机 通信 的 延迟 要 小 ,把 两 个 副本 放 在 同一 个 机 柜 内 的 








EHLE, 保证 了 对 这 些 副本 的 最 大 写 和 速度, 而 在 机 柜 外 放置 一 个 副本 则 可 在 机 柜 出 现 故障 的 情 


况 下 提供 元 余 。 
e 报告 自身 所 在 机 柜 的 脚本 





如 果 用 户 设置 了 topology.script.file.name 











盟 性 并 把 它 指向 NameNode 节 点 上 的 一 个 











可 执行 脚本 ，NameNode 会 用 这 个 脚本 确定 每 台 主 机 所 在 的 机 柜 ID。 








请 注意 ， 该 属性 需要 用 户 进行 设置 ， 同 时 可 执行 觅 


NameNode 向 该 脚本 传人 它 要 调查 的 节点 的 卫 地 址 
柜 名 的 映射 。 








I 本 只 能 位 于 NameNode 主 机 。 


， 脚 本 负责 实现 从 节点 耳 地 址 向 其 所 在 机 


如 果 没 有 指定 可 执行 脚本 的 位 置 ， 所 有 节点 都 向 Hadoop 报 告 它们 位 于 同一 个 默认 机 柜 。 








7.5 实践 环节 : 查看 默认 的 机 柜 配置 
我 们 看 一 下 如 何 为 集群 设置 默认 的 机 柜 配 置 。 
(1) 执行 以 下 命令 。 

$ Hadoop Esck -rack 


(2) 输出 结果 应 类 似 于 以 下 内 容 。 


Default replication factor: 3 

Average block replication: 3.3045976 
Corrupt blocks: 0 

Missing replicas: 18 (0.5217391 %) 
Number of data-nodes: 4 

Number of racks: 1 


The filesystem under path '/' is HEALTHY 


原理 分 析 





我 们 既 对 刚才 用 到 的 命令 感 兴 趣 ， 也 对 它 的 输出 感 兴趣 。hadoop fsck 工 具 用 于 检测 并 修复 
文件 系统 问题 。 可 以 看 出 ， 该 命令 包含 的 一 些 信息 与 我 们 常用 的 hadoop dfsadmin 命 令 有 些 相 
似 ， 尽管 后 者 更 倾向 于 详细 报告 每 个 节点 的 状态 ， 而 haqoop fsck 则 是 报告 整个 文件 系统 内 部 




















构件 信息 。 








hadoop fsck 输 出 的 一 部 分 信息 表明 了 集群 中 的 机 柜 总 数 。 从 上 例 的 输出 可 以 看 出 ， 上 默认 值 


为 1。 


为 什么 “average block replication” 和 “under-replicated blocks” 的 值 显得 有 点 异常 。 
如 果 主 机 发 生 临 时 性 故障 , 故障 修复 后 又 重新 回 到 Hadoop 集 群 时 ， 可 能 会 导 
致 数据 块 的 副本 数量 大 于 复制 因子 。Hadoop 不 仅 会 增加 副本 以 使 数据 块 副 本 数量 


上 述 命令 是 在 刚刚 用 作 HDFS 故 障 修复 测试 的 集群 上 执行 的 。 这 就 是 解释 了 
满足 复制 因子 的 要 求 ， 它 还 会 删 掉 多 余 副 本 使 数据 块 副本 数量 等 于 复制 因子 。 


7.6 实践 环节 : 报告 每 台 主 机 所 在 机 柜 


我 们 可 以 通过 创建 一 个 为 每 台 主 机 获取 机 本 位 置 的 脚本 ， 改 进 默 认 的 机 柜 设 置 。 


7.6 ”实践 环节 : 报告 每 台 主 机 所 在 机 柜 
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(1) 在 NameNode 主机 的 Hadoop 用 户主 目录 下 创建 一 个 rack-script.sh 脚 本， 其 内 容 如 


下 。 请 记 住 将 其 中 IP 地 址 改 为 用 户 所 用 HDFS 节点 的 卫 。 
#!/bin/bash 
if [ $1 = "10.0.0.101" ]; then 
echo -n "/rack1 " 
else 
echo -n "/default-rack " 
Ei 
(2) d& rack-script.sh 脚本 做 成 可 执行 文件 。 
$ chmod +x rack-script.sh 


(3) 在 NameNode 主机 的 core-site.xml 文件 中 加 入 下 列 属 性 。 


<property> 
<name>topology.script.file.name</name> 
«value»/home/Hadoop/rack-script.sh«/value» 
</property> 

(4) € È HDFS。 
$ start-dfs.sh 

(5) 通过 fsck 查看 文件 系统 。 


$ Hadoop fsck -rack 


其 输出 如 下 图 所 示 : 





c 


~ had 





二 三 (EX 











File Edit view Terminal Help 
hadoopaüheadnode:-$ hadoop fsck -rack 
FSCK started by hadoop from /127.0.0.1 for path / at Wed Jan 02 15:02:13 PST 201 


3 
.Status: HEALTHY 
Total size: 75342464 B N 
Total dirs: 3 
Total files: 1 
Total blocks (validated): 18 (avg. block size 4185692 B) 
Minimally replicated blocks: 18 (100.0 %) 
Over-replicated blocks: O (0.0 %) 
Under- replicated blocks: O (0.0 %) 
Mis-replicated blocks: 0 (0.0 5) 
Default replication factor: 3 
Average block replication: 3.0 
Corrupt blocks: o 
9 





The filesystem under path '/' is HEALTHY 


^ 





hadoopaheadnode: ~$ | | 














原理 分 析 





首先 ， 我 们 创建 了 一 个 脚本 文件 ， 它 为 某 个 节点 返回 “Trackl1”， 为 其 余 节 点 返回 默认 值 。 我 
们 把 该 脚本 放 到 NameNode 上 ， 并 将 所 需 的 配置 属性 加 入 NameNode 的 core-site.xml 文 件 。 


在 重启 HDFS 之 后 ， 我 们 使 用 nadoop fsck 获 得 文件 系统 信息 。 可 以 看 到 ， 集 群 目前 被 设置 
为 有 两 个 机 柜 。 Hadoop 得 知 集群 中 存在 两 个 机 柜 后 , 它 会 采用 之 前 介绍 的 更 为 复杂 的 数据 块 放置 
策略 。 

















使 用 外 部 主机 文件 

I 

K 一 个 通用 的 办 法 是 使 用 类 似 于 Unix 的 /etc/hosts 的 数据 文件 指定 IP 地 址 
与 机 杠 的 映射 关系 ， 每 行 存储 一 个 映射 。 用 户 可 以 独立 更 新 该 文件 ， 然 后 使 用 


rack-awareness 脚 本 读 取 文件 内 容 。 


究竟 什么 是 商用 硬件 


让 我 们 回顾 一 下 集群 中 主机 的 共有 特点 ,它们 看 上 去 更 像 是 日 常 使 用 的 组 装 服务 器 还 是 专门 
构建 的 高 端 企业 服务 器 ? 


有 一 部 分 问题 在 于 , “日 用 品 ” 是 一 个 含糊 的 字眼 。 在 某 个 业务 中 看 来 便宜 的 商品 对 为 一 个 
业务 来 讲 就 可 能 是 豪华 高 档 的 。 我 们 建议 在 选择 硬件 时 考虑 以 下 儿 个 要 素 ， 然 后 再 愉快 地 选择 。 


Q 使 用 这 些 硬 件 ， 你 是 否 需 要 为 保证 可 靠 性 付出 代价 ， 比 如 再 次 实现 Hadoop 的 一 些 容错 机 
制 ? 

口 付款 购买 的 高 端 硬件 的 功能 能 否 解决 现实 环境 中 遇 到 的 需求 或 困难 ? 

口 有 没有 验证 过 ， 是 购买 高 端 硬件 更 费 钱 ， 还 是 使 用 便宜 的 、 可 靠 性 稍 差 的 硬件 并 解决 
由 此 带 来 的 问题 的 花费 更 多 ? 






































随 堂 测 验 : 创建 集群 


问题 1 在 为 Hadoop 新 集群 选择 硬件 时 ， 下 列 哪个 因素 是 最 重要 的 ? 
(1) CPU 内 核 数 量 以 及 它们 的 运算 速度 。 
(2) 物理 内 存 的 容量 。 
(3) 硬盘 的 存储 容量 。 
(4) 硬盘 的 读 写 速度 。 
(5) 很 大 程度 上 ， 它 由 工作 量 决定 。 
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问题 2 ”下列 哪个 原因 导致 你 不 愿意 在 集群 中 采用 网 络 存储 方案 ? 
(1) 它 可 能 引入 一 些 新 的 单 点 失效 问题 。 
(2) 它 有 一 些 宛 余 备份 和 容错 方法 , 由 于 Hadoop 已 经 提供 了 容错 机 制 , 这 些 特性 是 不 必要 的 。 
(3) 这 种 单个 设备 的 性 能 不 如 同时 使 用 多 个 本 地 硬盘 的 性 能 
(4) 上 述 选 项 都 正确 。 
问题 3 假如 你 需要 在 集群 上 处 理 10 TB 数据 。MapReduce 主 作业 负责 处 理 金融 交易 ， 用 这 些 
交易 生成 数据 统计 模型 并 预测 未 来 。 你 将 为 集群 选择 哪 种 硬件 配置 方案 ? 
(1) 20 台 配 有 双核 处 理 器 ，4 GB 内 存 以 及 500 GB 硬盘 的 主机 。 
(2) 30 台 配 有 双核 处 理 器 ，8 GB 内 存 以 及 2 块 500 GB 硬盘 的 主机 。 
(3) 30 台 配 有 四 核 处 理 器 ，8 GB 内 存 以 及 1 块 1 TB 硬盘 的 主机 。 
(4) 40 台 配 有 四 核 处 理 器 ，16 GB 内 存 以 及 4 块 1 TB 硬盘 的 主机 。 


7.7 ”集群 访问 控制 


一 旦 加 新 的 集群 安装 并 运行 起 来 之 后 , 用 户 需 要 考虑 访问 控制 以 及 安全 性 问题 。 谁 可 以 访问 
集群 上 的 数据 ? 是 否 有 一 些 敏 感 数据 不 希望 整个 用 户 群 都 可 以 访问 ? 




















Hadoop 安 全 模型 

Hadoop 一 直 都 缺乏 安全 机 制 ， 直 到 最 近 ， 才 出 现 了 一 种 充其量 只 能 称 之 为 “标记 ”的 安全 
模型 。 它 把 每 个 文件 与 其 创建 者 及 所 属 用 户 组 关联 起 来 , 但 却 很 少 验证 特定 的 客户 端 连接 。 强 安 
全 机 制 不 仅 会 管理 文件 标记 ， 而 且 会 验证 所 有 连接 到 Hadoop 的 用 户 身份 。 
































7.8 实践 环节 : 展示 Hadoop 的 默认 安全 机 制 

我 们 曾 展 示 过 一 些 文件 列表 ,这些 文 件 的 属性 包括 所 属 用 户 及 用 户 组 的 名 称 。 但 是 , 我 们 未 
曾 研 究 它们 的 真正 意义 。 

(1) 在 hadoop 用 户 的 根 目 录 下 创建 一 个 测试 文本 文件 。 


$ echo "I can read this!" > security-test.txt 
$ hadoop fs -put security-test.txt security-test.txt 


(2) 更 改 文件 权限 ， 使 其 只 能 被 文件 创建 者 访问 。 


$ hadoop fs -chmod 700 security-test.txt 
$ hadoop fs -1s 
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上 述 命 令 的 输出 结果 如 下 图 所 示 。 














File Edit View: meint Help 
hadoopaheadnode:-$ hadoop fs -ls 
Found 2 items 


-rwW------- 3 hadoop supergroup 16 2013-01-02 15:14 /user/hadoop/security-test.txt 


-rw-r--r-- 3 hadoop supergroup 75342464 2013-01-02 14:56 /user/hadoop/ufo.tsv 
hadoopaheadnode: ~$ || 











(3) 确认 你 仍然 可 以 读 取 该 文件 内 容 。 
$ hadoop fs -cat security-test.txt 
你 会 在 屏幕 上 看 到 下 面 这 行 
I can read this! 
(4) 连接 到 集群 中 的 另 一 个 节点 并 试 着 读 取 文 件 内 容 。 


$ ssh node2 
$ hadoop fs -cat security-test.txt 


你 会 在 屏幕 上 看 到 下 面 这 行 
I can read this! 
(5) 从 其 他 节点 退出 系统 。 
$ exit 
(6) 为 其 他 用 户 创建 根 目录 ， 并 赋予 它们 所 有 权 。 
$ hadoop m[Kfs -mkdir /user/garry 


$ hadoop fs -chown garry /user/garry 
$ hadoop fs -1s /user 


上 述 命令 的 结果 如 下 图 所 示 : 








m dp ee 
| pr 








File Edit View Terminal Help 

lhadoopaheadnode: ~$ hadoop fs -ls /user 

|Found 2 items 

Idrwxr-xr-x - garry supergroup O 2013-01-02 15:18 /user/garry 


|Idrwxr-xr-x — - hadoop supergroup O 2013-01-02 15:14 /user/hadoop 
lhadoopaheadnode: ~$ [| 











(7) 切换 到 garry M P o 


$ su garry 
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(8) 试 着 读 取 hadoop 用 户 根 目 录 下 的 测试 文件 。 


$ hadoop/bin/hadoop fs -cat /user/hadoop/security-test.txt 

cat: org.apache.hadoop.security.AccessControlException: Permission 
denied: user-garry, access-READ, inode-"security-test.txt":hadoop: 
supergroup:rw------- 


(9) 把 hadoop 目录 下 的 security-test.txt 文 件 复 制 到 garry 用 户 根 目录 ， 并 设置 文件 访问 权限 ， 
使 其 只 能 被 创建 者 访问 。 
$ Hadoop/bin/Hadoop fs -put security-test.txt security-test.txt 


$ Hadoop/bin/Hadoop fs -chmod 700 security-test.txt 
$ hadoop/bin/hadoop fs -1s 


上 述 命令 的 输出 如 下 图 所 示 : 








a van 


Fle Edit View Terminal Help 





garry@headnode:~$ hadoop fs -ls 
Po" 1 duet 


WwW------- 3 garry supergroup 17 2013-01-02 15:40 /user/garry/security-test,txt 
ger -$i 











(10) 确认 garry 用 户 可 以 读 取 该 文件 内 容 。 
$ hadoop/bin/hadoop fs -cat security-test.txt 
你 会 在 屏幕 上 看 到 下 面 这 行 字 


I can read this! 





(11) 注销 系统 并 返回 到 hadoop 用 户 。 
$ exit 

(12) 尝试 访问 garry 用 户 根 目 录 下 的 security-test.txt 文件 。 
$ hadoop fs -cat /user/garry/security-test.txt 
你 会 在 屏幕 上 看 到 下 面 这 行 字 


I can read this! 


原理 分 析 





我 们 首先 使 用 hadoop 用 户 在 HDFS 的 根 目 录 下 创建 一 个 测试 文件 。 接 下 来 , 我 们 使 用 hadoop 
s 命 令 的 -chmod 选 项 修改 文件 权限 ， 之 前 从 未 见 过 该 选项 。 它 与 标准 Unix 的 chmod 工 具 非 常 相 
"ae 可 以 为 文件 创建 者 、 茶 一 用 户 组 中 所 有 成 员 以 及 所 有 用 户 指定 文件 的 读 / 写 /执行 权限 。 
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接着 ,我 们 再 次 使 用 hadoop 用 户 登 录 到 另 一 台 主 机 并 试图 访问 文件 。 毫 不 奇怪 , 文件 访问 成 
功 。 但 是 为 什么 呢 ? Hadoop 赁 什么 来 判断 用 户 身份 并 决定 是 否 允 许 其 访问 特定 文件 呢 ? 


为 了 研究 这 个 问题 ， 我 们 随后 在 HDFS 创 建 了 另 一 个 根 目录 (可 以 使 用 登录 到 主机 上 的 任意 
账号 )， 并 通过 hadqoop fs 命令 的 -chown 选 项 为 该 目录 赋予 创建 者 权限 。 这 个 过 程 依然 类 似 于 标 
准 Unix 的 chown 工 具 。 然 后 , 我们 切换 到 garry 用 户 并 试图 访问 存放 在 hadoop 用 户 根 目录 下 的 文件 。 
这 次 访问 失败 了 ， 系 统 给 出 一 个 安全 异常 ， 这 也 符合 我 们 的 预期 。 接 下 来 ,我 们 把 测试 文件 拷贝 
到 garry 用 户 的 根 目 录 下 ， 并 修改 其 权限 ， 使 其 只 能 被 创建 者 访问 。 


为 了 把 事情 卉 乱 , 我 们 又 切换 回 hadoop 用 户 并 试 着 访问 garry 用 户 根 目 录 下 的 文件 。 令 人 奇怪 
的 是 ， 居 然 访问 成 功 了 。 


1. 用 户 身 份 


第 一 个 问题 的 答案 是 ,Hadoop 使 用 执行 HDFS 命 令 的 用 户 的 UnixID 作 为 HDFS 上 的 用 户 身 份 。 
所 以 , 用 户 alice 执 行 命令 创建 的 文件 的 所 有 者 为 alice, 该 用 户 只 能 读 写 其 拥有 相应 访问 权限 的 
文件 。 


有 安全 意识 的 人 会 认识 到 , 任何 人 只 要 在 可 以 连接 到 集群 的 任意 一 台 主 机 上 创建 一 个 与 现 有 
HDFS 用 户 同 名 的 用 户 ， 即 可 实现 对 Hadoop 集 群 的 访问 。 因 此 ， 在 上 个 例子 中 ,在 任何 一 台 可 以 
访问 NameNode 的 主机 上 创建 的 名 为 hadoop 的 用 户 都 可 以 读 取 用 户 hadoop 可 访问 的 文件 内 容 ， 
这 种 情况 非常 糟糕 。 

e 超级 用 户 


上 个 例子 中 ， 我们 看 到 hadoop 用 户 访 问 了 garry 用 户 的 文件 。Hadoop 把 启动 集群 的 用 户 ID 视 
为 超级 用 户 ， 并 赋予 其 多 种 特权 ， 比 如 读 、 写 、 修 改 HDFS 上 任意 文件 的 权限 。 有 安全 意识 的 人 
会 认识 到 ， 这 种 风险 甚至 要 比 在 Hadoop 管 理 员 无 法 控制 的 主机 上 随意 创建 名 为 hadoop 的 用 户 的 
风险 更 大 。 


2. 更 细 粒 度 的 访问 控制 
在 Hadoop 发 展 的 早期 阶段 ， 上 述 情况 导致 其 安全 性 成 为 一 个 主要 弱点 。 但 是 ，Hadoop 开 


发 团队 没有 停 涡 不 前 ， 在 完成 大 量 工作 之 后 ， 最 新 版 的 Hadoop 支 持 更 细 粒 度 的 、 更 强 的 安全 
模型 。 


为 避免 简单 依赖 于 用 户 ID, 开发 者 需要 从 其 他 地 方 获悉 用 户 身份 , 他 们 选择 了 Kerberos 系 统 。 
这 需要 建立 并 维护 Kerberos 系 统 ， 它 们 超出 了 本 书 范围 ， 但 如 果 这 些 安全 机 制 对 读者 来 讲 很 重要 
的 话 ， 请 自行 查阅 Hadoop 文 档 。 请 注意 ， 用 户 可 以 综合 使 用 基于 Kerbros 的 身份 认证 机 制 和 其 他 
第 三 方 认 证 系统 ， 如 微软 活动 目录 (Microsoft Active Directory )， 因 此 其 功能 非常 强大 。 
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通过 物理 访问 控制 解决 安全 模型 问题 


如 果 读 者 认为 Kerberos 系 统 太 过 复杂 ,或 者 安全 性 是 一 个 最 好 具备 而 非 必须 具备 的 功能 ， 还 
可 以 通过 一 些 其 他 办 法 降低 安全 风险 。 我 喜欢 的 一 个 办 法 是 , 将 整个 集群 部 署 在 有 着 严格 的 访问 
控制 策略 的 防火 墙 之 后 。 尤 其 是 ， 只 人 允许 集群 中 的 一 台 主 机 访问 NameNode 和 JobTracker 服 务 ， 该 
主机 被 视 为 集群 的 头 节 点 ， 所 有 用 户 都 要 连 到 该 主机 。 















































从 集群 外 的 主机 访问 Hadoop 


运行 状态 。 只 要 正确 地 安装 了 Hadoop， 并 在 其 配置 文件 中 正确 设置 了 NameNode 
或 者 JobTracker 的 位 置 ， 调 用 Hadoop fs 和 Hadoop jar 命 令 时 就 会 找到 
NameNode 或 者 JobTracker 节 点 。 


à 使 用 命令 行 工具 访问 HDFS 或 运行 MapReduce 作 业 时 ， 并 不 要 求 Hadoop 处 于 


这 种 模型 的 工作 原理 是 ， 保 证 只 有 一 台 主 机 可 以 与 Hadoop 交 互 。 因 为 该 主机 被 集群 管理 员 
出 ， 正 常用 户 无 法 创建 或 访问 其 他 用 户 账号 。 


请 记 住 ,这 种 方法 并 不 提供 安全 机 制 。 它 为 一 个 脆弱 的 系统 套 上 了 坚硬 的 外 壳 , 可 以 降低 破 
坏 Hadoop 安 全 模型 的 可 能 性 。 
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接 下 来 , 我 们 将 讨论 更 多 降低 风险 的 有 效 途 径 。 在 第 6 章 中 , 我 曾 以 NameNode 主 机 故障 可 能 
造成 的 严重 后 果 为 例 吓 距 过 读者 。 如 果 那 一 节 没 有 吓 到 你 ， 回 过 头 去 再 读 一 遍 。 概 括 地 讲 ， 如 果 
集群 中 的 NameNode 无 法 提供 服务 ， 用 户 会 失去 存储 在 集群 上 的 所 有 数据 。 这 是 因为 NameNode 
负责 向 fsimage 文 件 写 入 数据 , 该 文件 包含 了 文件 系统 的 所 有 元 数据 并 记录 了 哪个 文件 由 哪些 数 
据 块 组 成 。 如 果 NameNode 主 机 不 再 提供 服务 ， 会 造成 用 户 无 法 访问 fsimage 文 件 ， 其 效果 就 像 
是 丢失 了 所 有 HDFS 数 据 。 











为 fsimage 配 置 多 个 存储 位 置 


用 户 可 以 配置 多 个 fsimage 文 件 的 存储 路 径 ， 这 样 NameNode 就 会 同时 向 多 个 位 置 写 和 人 
fsimage 文 件 。 这 完全 是 一 种 宛 余 策略 ， 多 个 存储 设备 只 是 用 于 存储 相同 数据 的 多 个 副本 ， 而 且 
其 目的 并 不 是 为 了 提高 性 能 。 然 而 , 通过 这 种 策略 ， 可 以 降低 fsimage 文 件 的 多 个 副本 同时 丢失 
的 可 能 1 "Eo 















































7.10 实践 环节 : 为 fsimage 文件 新 增 一 个 存储 路 径 


为 了 满足 数据 恢复 的 需求 ， 我 们 把 NameNode 配置 成 同时 输出 fsimage 文件 的 多 个 副本 。 
为 了 完成 相应 的 设置 ,我们 需要 一 个 NFS 导出 目录 。 


(1) 确保 集群 已 停止 运行 。 
$ stopall.sh 
(2) J Hadoop/conf/core-site 


<property> 
«name»dfs.name.dir«/name» 


«value»$(hadoop.tmp.dir)/dfs/name,/share/backup/namenode«/value» 


</property> 
(3) 删除 新 增 路 径 下 的 已 有 内 容 。 

$ rm -f /share/backup/nameno 
(4) 启动 集群 。 


$ start-all.sh 


.xml 文件 中 加 入 下 列 属性 ， 把 第 二 个 路 径 改 为 NFS 挂 接 
位 置 ，NameNode 的 另 一 个 副本 数据 可 以 写 入 该 位 置 。 


de 


(5) 验证 fsimage 被 写 入 指定 的 那 两 个 位 置 , 并 为 之 前 指定 的 这 两 个 文件 运行 Id5sum 命令 
(根据 你 配置 的 路 径 修 改 下 列 代 码 )。 


$ md5sum /var/hadoop/dfs/name/image/fsimage 
304a /var/hadoop/dfs/name/image/ 


a25432981b0ecd6b70da647e9b94 
fsimage 


$ md5sum /share/backup/namenode/image/fsimage 


a25432981b0ecd6b70da647e9b94 
fsimage 


原理 分 析 


304a /share/backup/namenode/image/ 





首先 , 我 们 保证 集群 已 经 停止 运行 。 尽管 正在 运行 的 集群 不 会 











件 的 内 容 , 但 在 配置 之 前 停止 集群 运行 
文件 这 一 功能 。 

















接着 ， 我 们 在 集群 配置 文件 中 加 入 一 个 新 属性 : data.name.dir。 该 
隔 符 ， 指 明了 fsimage 文 件 的 写 和 信 路径。 请 注意 ，data.name.dir 反 向 引用 了 之 前 曾 讨论 过 的 





hadoop .tmp.dir 属 性 , 其 语法 与 Unix 中 的 变量 反 向 引用 类 似 。 使 用 该 语法 可 以 在 其 他 属 怕 

















础 上 扩展 新 的 属性 值 ， 并 可 以 继承 父 属性 的 更 新 。 




















新 读 取 修改 过 的 核心 配置 文 
是 一 个 好 习惯 , 可 以 防范 Hadoop 新 加 入 重新 读 取 核心 配置 





属性 的 值 以 逗号 为 分 








FE 值 基 
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别 忘 了 加 入 需要 的 所 有 位 置 
4 


Q data.name.dir 属 性 的 默认 值 是 S$S{Hadoop.tmp.dir}/dfs/name。 在 新 增 另 
一 个 属性 值 时 ， 记 得 要 明确 地 加 入 原来 的 默认 值 ， 如 上 所 示 。 否 则 ， 该 属性 只 
会 使 用 那个 新 值 。 





在 启动 集群 之 前 ， 我 们 要 确保 存在 新 路 径 且 该 路 径 下 没有 数据 。 如 果 不 存在 该 路 径 ， 
NameNode 的 启动 过 程 会 失败 ， 这 是 我 们 可 以 预料 的 。 但 是 ， 如 果 曾 在 该 目录 下 存储 NameNode 
数据 , 启动 过 程 同样 会 失败 ， 因 为 两 个 路 径 下 的 NameNode 数 据 不 同 , NameNode 无 法 确定 哪个 才 
是 正确 的 。 






































请 注意 ! 读者 一 定 不 想 意外 误 删 了 某 个 目录 中 的 数据 ， 尤 其 是 在 试验 使 用 多 个 NameNode 数 
据 存放 位 置 ， 或 者 在 节点 间 往 复 交 换 页 面 数据 的 时 候 。 


在 启动 HDFS 集 群 后 ， 稍 等 片刻 ， 然 后 使 用 MD5S 校 验 和 来 验证 这 些 位 置 存放 的 fsimage 文 件 
完全 相同 。 











fsimage 副 本 的 写 入 位 置 


我 们 推荐 至 少 向 两 个 位 置 写 入 fsimage 文 件 , 其 中 一 个 位 置 应 当 是 远程 文件 系统 , 例如 网 络 
文件 系统 ( NFS )， 就 像 上 个 例子 那样 。Hadoop 系 统 只 会 定期 更 新 fsimage 文 件 的 内 容 ， 因 此 不 
需要 文件 系统 的 性 能 有 多 高 。 











在 前 几 节 学 习 选 配 硬件 的 时 候 , 我 们 暗示 过 读者 要 为 NameNode 选 配 特 殊 硬 件 . 因 为 fsimage 
文件 至 关 重 要 ， 有 必要 将 其 写 人 多 个 硬盘 , 也 有 必要 为 其 购置 高 可 靠 性 的 硬盘 ,甚至 可 以 将 其 写 
和 人 了 RAID 阵 列 。 如 果 NameNode 主 机 发 生 故 障 ， 最 简单 的 办 法 就 是 使 用 写 人 远程 文件 系统 的 
fsimage 副 本 。 但 假如 恰好 远程 文件 系统 也 发 生 了 故障 ， 只 好 从 罕 机 的 NameNode 上 拔 下 硬盘 并 
插入 另 一 台 主 机 恢复 数据 。 





























迁移 到 另 一 台 NameNode 主 机 


我 们 已 确保 fsimage 写 人 多 个 位 置 ， 这 是 向 另 一 台 NameNode 迁 移 的 最 重要 的 前 提 。 现 在 我 
们 来 完成 这 个 迁移 过 程 。 














切记 不 要 在 产品 集群 上 执行 这 些 操 作 。 在 产品 集群 上 进行 首次 实验 是 被 绝对 禁止 的 , 但 即使 
不 是 第 一 次 执行 这 些 操作 也 不 能 说 明 这 些 操 作 是 完全 没有 风险 的 。 但 一 定 要 在 其 他 集群 上 进行 实 
验 ， 从 而 知道 在 灾难 袭 来 的 时 候 应 该 怎么 办 。 
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在 灾难 来 袭 之 前 做 好 准备 


读者 一 定 不 想 在 需要 恢复 产品 集群 时 才 来 学 习 本 节 内 容 。 提前 做 一 些 准备 工作 , 不 仅 可 以 在 
灾难 发 生 后 恢复 NameNode， 而 且 可 以 使 这 个 过 程 更 轻松 。 


口 保证 NameNode 疝 多 个 位 置 写 人 fsimage 文 件 。 

OQ 决定 在 哪 台 主机 上 运行 新 NameNode。 假 如 该 主机 目前 被 用 作 DataNode 和 TaskTracker， 确 保 

其 硬件 配置 满足 NameNode 的 需求 , 并 且 不 会 因 缺 少 一 台 工 作 主机 而 造成 集群 性 能 大 幅 下 降 。 

O 复制 core-site.xml 和 hdfs-site.xml， 最 好 把 它们 放 到 网 络 文件 系统 (NFS) b, 并 
修改 这 些 文件 内 容 ， 使 其 指向 新 NameNode 主 机 。 在 对 现 有 配置 文件 进行 修改 的 时 候 ， 也 
要 及 时 在 这 些 配置 文件 副本 中 进行 相同 修改 。 

口 把 位 于 NameNode 主 机 上 的 slaves 文 件 拷贝 到 新 NameNode 主 机 或 者 NFS 的 共享 文件 夹 。 

同样 ， 要 保证 对 它 进行 同步 更 新 。 

口 明白 如 何 处 理 新 主机 出 现 的 故障 。 修 复 或 蔡 换 原来 的 发 生 故 障 的 主机 需要 多 长 时 间 ? 在 

此 期 间 ， 哪 台 主 机 将 作为 下 一 台 承 载 NameNode 和 SecondaryNameNode 的 主机 ? 


准备 好 了 吗 ? 让 我 们 开始 吧 ! 












































7.11 实践 环节 : 迁移 到 新 的 NameNode 主机 


下 面 的 步骤 中 ， 我 们 把 新 配置 文件 放 在 挂 接 到 share/backup 的 一 个 NFS 共享 文件 夹 中 ， 
并 根据 新 文件 的 存储 位 置 改变 配置 文件 中 的 相应 内 容 。 另 外 ， 我 们 在 配置 文件 中 查找 新 
NameNode 主机 的 卫 地 址 ， 该 卫 地 址 专用 于 NameNode 主机 。 
(1) 登录 到 目前 的 NameNode 主机 ， 停 止 集群 运转 。 
$ stop-all.sh 
(2) 关闭 运行 着 NameNode 进程 的 主机 。 
$ sudo poweroff 
(3) 登录 到 承载 新 NameNode 进程 的 主机 , 并 确认 新 配置 文件 中 的 NameNode 位 置 是 正确 的 。 
$ grep 110 /share/backup/*.xml 
(4) 把 slaves 文 件 拷贝 到 新 NameNode 主 机 上 。 
$ cp /share/backup/slaves Hadoop/conf 
(5) 把 更 新 过 的 配置 文件 拷贝 到 新 NameNode 主机 上 。 


$ cp /share/backup/*site.xml Hadoop/conf 
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(6) 删 去 本 地 文件 中 的 旧 NameNode 的 数据 。 
$ rm -f /var/Hadoop/dfs/name/* 
(7) de 333: 64 BC. SC E US] HERE P 9 EAE 
$ slaves.sh cp /share/backup/*site.xml Hadoop/conf 
(8) 保证 每 个 节点 上 有 一 个 指向 新 NameNode 节点 的 配置 文件 。 
$ slaves.sh grep 110 hadoop/conf/*site.xml 
(9) 启动 集群 。 


$ start-all.sh 


$ Hadoop fs 1s / 


(11) 验证 是 否 可 通过 网 页 用 户 接口 访问 HDFS。 


原理 分 析 


Hc. 我们 关 掉 了 整个 集群 。 这 个 操作 不 具有 代表 性 ， 因 为 由 故障 导致 NameNode 停 止 运行 
的 大 多 数 情况 下 ，NameNode 停 止 运行 的 方式 都 不 太 友 好 。 但 本 章 后 面 几 节 会 讲 到 文件 系统 错误 
引发 的 问题 。 


接着 ， 我 们 关 掉 了 旧 NameNode 主 机 。 严 格 意义 上 来 讲 ， 这 不 是 必要 的 ， 但 它 保 证 了 其 他 节 
点 无 法 访问 该 主机 。 它 给 你 一 种 错觉 ， 认 为 向 新 NameNode 主 机 的 迁移 过 程 很 顺利 。 














在 把 配置 文件 拷贝 到 新 主机 之 前 ， 我 们 快速 浏览 一 下 core-site.xm 和 hdfs-site.xml， 
确认 core-site.xml 中 的 fs .default.dir 属 性 值 是 正确 的 。 


之 后 ， 我 们 在 新 主机 上 进行 准备 工作 。 首 先 把 slaves 配 置 文件 以 及 集群 配置 文件 拷贝 至 新 
主机 ， 然 后 把 本 地 路 径 下 的 旧 NameNode 数 据 删除 。 参 阅 前 面 的 步 又 ,本 步骤 要 特别 小 心 。 


























接 下 来 ,我 们 使 用 slaves . sh 脚本 把 新 配置 文件 拷贝 到 集群 中 每 个 节点 上 。 我 们 知道 ， 只 
有 新 NameNode 主 机 的 了 中 包含 字符 串 “110”， 因 此 我 们 在 文件 中 查找 该 字符 串 以 确保 所 有 配置 
都 是 最 新 的 (很 明显 ,你 需要 在 你 的 系统 中 使 用 一 个 不 同 的 字符 串 )。 

















至 此 ,所 有 操作 都 已 完成 。 我们 启动 集群 并 通过 命令 行 工 具 和 网 页 用 户 接口 访问 集群 ， 以 确 
认 集 群 按照 我 们 预期 的 方式 运转 。 





请 记 住 ， 即 使 成 功 地 迁移 到 了 新 NameNode 主 机 ， 事 情 还 没有 完成 。 你 需要 提前 决定 如 何 处 
理 SecondaryNameNode， 以 及 假如 NameNode 再 次 出 现 故 障 ,， 下 一 步 要 把 NameNode 迁 移 到 哪 台 主 
机 上 。 为 了 做 好 这 些 准 备 ， 你 需要 再 次 浏览 刚刚 提 到 的 “准备 工作 ”清单 并 据 此 开展 准备 工作 。 























ŞS 不 要 忘 了 考虑 发 生 关联 故障 的 可 能 性 。 及 时 调查 NameNode 主 机 发 生 故 障 的 
原因 ， 否 则 它 将 再 次 引发 更 大 的 问题 。 


2. 如 何 完成 JobTracker 迁 移 过 程 


我 们 没有 提 如 何 迁 移 JobTracker, 因为 第 6 章 曾 讲 过 , 这 个 过 程 相对 简单 一 些 。 如 果 NameNode 
和 JobTracker 运 行 在 同一 台 主 机 上 ， 需 要 改进 上 述 方法 ， 即 更 新 mapred-site.xml 副 本 的 内 容 ， 
使 其 中 的 mapred.job.tracker 属 性 指向 新 JobTracker 主 机 的 位 置 。 














一 展 身手 : 把 NameNode 迁 移 到 一 台新 主机 


实践 一 下 ， 把 NameNode 和 JobTracker 从 一 台 主 机 迁移 到 另 一 台 主 机 上 。 


7.12 管理 HDFS 


在 第 6 章 中 曾 讲 到 过 ， 杀 死 节点 并 重启 时 ，Hadoop 会 自动 解决 很 多 可 用 性 问题 。 如 果 在 传统 
文件 系统 上 , 这 些 问 题 会 耗费 集群 管理 员 很 多 精力 。 虽 然 Hadoop 自 动 实现 了 这 些 功 能 , 但 我 们 仍 
需 了 解 其 工作 原理 。 

















7.12.1 数据 写 入 位 置 


就 像 可 以 通过 dfs .name .qir 属 性 为 NameNode 的 fsimage 文 件 指定 多 个 存储 位 置 一 样 ， 我 
们 曾经 提 到 过 ， 有 一 个 名 为 afs .data.dir 的 类 似 属性 , 它 允 许 在 HDFS 使 用 多 个 数据 存储 位 置 。 
本 市 我 们 将 学 习 相 关内 容 。 


这 是 一 种 有 效 方案 ， 其 工作 原理 与 NameNode 的 原理 有 较 大 区 别 。 如 果 在 afs .data.dir 属 
性 值 中 指定 多 个 路 径 , Hadoop 会 把 它们 当做 可 并 行使 用 的 独立 位 置 。 如 果 用 户 拥有 多 个 指向 文件 
系统 不 同位 置 的 物理 硬盘 或 其 他 存储 设备 时 ， 这 个 属性 非常 有 用 。Hadoop 会 智能 调度 这 些 设备 ， 
不 仅 可 使 存储 总 量 最 大 化 ,同时 将 读 写 操 作 均 匀 分 配 到 这 些 设备 上 ， 以 获得 最 大 否 吐 量 。 在 7.4.3 
节 曾 提 到 ,这 种 方法 可 以 达到 存储 量 和 生 吐 量 最 大 化 , 但 却 以 健壮 性 为 代价 ， 单个 硬盘 故障 就 会 
导致 主机 失效 。 
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7.12.2 ”使 用 平衡 器 


Hadoop 尽 量 优化 HDFS 上 的 数据 块 存放 策略 ， 以 达到 最 佳 性 能 和 最 大 宛 余 。 但 是 ,在 某 些 情 
况 下 , 集群 出 现 了 失衡 现象 , 各 节点 存储 的 数据 量 有 着 较 大 差异 。 最 典型 的 情况 就 是 集群 中 出 现 
新 增 节 点 的 时 候 。 默认 情况 下 ，Hadoop 认 为 新 增 节点 和 其 他 节点 地 位 相同 , 这 就 意味 着 , 在 相当 
长 一 段 时 间 内 , 新 增 节 点 的 空间 使 用 率 会 维持 在 较 低 水 平 。 失 效 或 出 现 其 他 问题 的 节点 上 存储 的 
数据 块 也 明显 少 于 其 他 节点 。 


Hadoop 提 供 了 一 个 称 为 平衡 器 的 工具 来 解决 这 个 问题 。 我 们 可 以 通过 分 别 运行 start- 
balancer.sh 和 stop-balancer .sh 脚本 启用 或 停 用 平衡 器 。 























运行 平衡 器 的 时 机 
Hadoop 系 统 中 缺乏 一 种 提醒 用 户 文件 系统 已 失衡 的 自动 报警 机 制 。 相 反 ， 用 户 需要 自己 留 
Xihadoop fsck 和 hadoop fsadmin 反 馈 的 数据 ， 观 察 节点 间 是 否 存在 失衡 现象 。 





实际 上 ， 用 户 不 必 太 过 担心 这 个 问题 ， 因 为 Hadoop 有 着 完善 的 数据 块 放 置 策略 ， 只 有 当 新 
增 硬件 或 修复 故障 节点 时 ,用户 才 需 要 运行 平衡 器 消除 主要 的 失衡 现象 。 但 是 ,为 了 最 大 程度 地 
维护 集群 正常 运转 ， 人 们 通常 会 按照 预定 计划 定期 执行 平衡 希 ,， 例 如 ,每 晚 执 行 一 次 ,这 样 会 把 
数据 块 的 平衡 系数 维持 在 用 户 设 定 的 水 平 上 。 





























7.13 MapReduce 管理 


从 上 一 章 可 以 看 出 ， 一 般 来 讲 ，MapReduce 框 架 比 HDFS 的 容错 能 力 更 强 。 因 为 JobTracker 
和 TaskTracker 不 需要 维护 永久 数据 ， 因 此 ， 对 MapReduce 的 管理 更 多 的 是 指 对 正在 运行 的 作业 和 
任务 的 管理 ， 而 不 是 维护 框架 本 身 。 





7.13.1 通过 命令 行 管理 作业 


实现 作业 管理 的 主要 工具 是 Hadoop job 命令 行 工具 。 像 往常 一 样 ， 输 入 下 列 命令 获取 其 使 
用 说 明 。 























$ hadoop job --help 

该 命令 的 大 部 分 选项 都 无 需 解释 。 它 支持 启动 、 终 止 、 列 出 运行 中 的 作业 ， 以 及 修改 运行 中 
的 作业 。 此 外 ,还 可 以 通过 该 命令 查询 作业 的 历史 状态 。 下 节 内 容 不 会 逐一 解释 这 些 选 项 ， 而 是 
通过 在 一 个 例子 中 练习 多 个 子 命令 来 研究 其 用 法 。 
































RAF: 通过 命令 行 管理 作业 


使 用 MapReduce 的 网 页 用 户 接口 也 可 以 访问 部 分 上 述 功能 。 研 究 一 下 MapReduce 的 网 页 用 
户 接口 ， 弄 清楚 用 户 通过 该 接口 可 以 实现 和 无 法 实现 哪些 功能 。 


7.13.2 ”作业 优先 级 和 作业 调度 


截至 目前 ,我 们 通常 只 在 集群 中 运行 一 个 作业 并 等 至 其 运行 结束 ,这 就 掩盖 了 一 个 重要 事实 : 
默认 情况 下 ，Hadoop 将 提交 的 后 续 作 业 放 入 一 个 FIFO ( FirstIn, First Out， 先 人 先 出 的 队列 ) 在 
一 个 作业 结束 后 , Hadoop 会 启动 队列 中 的 下 一 个 作业 。 除非 我 们 选用 了 后 面 几 节 会 讲 到 的 另 一 个 
调度 算法 ， 采 用 先 人 先 出 调度 算法 的 集群 专用 于 处 理 正 在 运行 的 单个 作业 。 


对 于 很 少 有 作业 排队 等 候 运 行 的 小 集群 来 说 ,这 种 方式 完全 没 问 题 。 但 是 ,如 果 队 列 中 经 常 
有 一 些 作 业 在 等 待 执行 机 会 , 便 会 产生 问题 。 特 别 是 , FIFO 调 度 模型 没有 考虑 作业 优先 级 或 者 作 
业 所 需 的 资源 ,一 个 运行 时 间 较 长 但 优先 级 较 低 的 作业 会 先 于 运行 时 间 较 短 而 优先 级 较 高 的 作业 
和 运行， 仅仅 因为 前 者 的 提交 时 间 早 于 后 者 。 


为 了 解决 这 个 问题 ，Hadoop 定 义 了 5 种 不 同 程度 的 作业 优先 级 ， 它 们 分 别 是 : VERY_HIGH、 
HIGH, NORMAL, 、LOW 和 VERY_LOW。 作 业 的 默认 优先 级 是 NoORMAL ， 但 可 以 通过 hadqoop job 
-set-pzriority 命 令 修改 它 。 







































































7.14 ”实践 环节 : 修改 作业 优先 级 并 结束 作业 运行 
接 下 来 ,我 们 会 动态 修改 作业 优先 级 ， 并 观察 强制 结束 正在 运行 的 作业 后 ,哪个 作业 会 得 到 
执行 机 会 。 
(1) 在 集群 上 启动 一 个 需要 运行 很 长 一 段 时 间 的 作业 。 
$ hadoop jar hadoop-examples-1.0.4.jar pi 100 1000 
(2) 打开 另 一 个 窗口 并 提交 第 二 个 作业 。 
$ hadoop jar hadoop-examples-1.0.4.jar wordcount test.txt outil 
(3) 打开 另 一 个 窗口 并 提交 第 三 个 作业 。 
$ hadoop jar hadoop-examples-1.0.4.jar wordcount test.txt out2 
(4) 列 出 正在 运行 的 作业 。 


$ Hadoop job -list 
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你 会 在 屏幕 上 看 到 下 列 输出 。 


3 jobs currently running 

JobId State StartTime UserName Priority SchedulingInfo 
job 201201111540 0005 1 1326325810671 hadoop NORMAL NA 

job 201201111540 0006 1 1326325938781 hadoop NORMAL NA 

job 201201111540 0007 1 1326325961700 hadoop NORMAL NA 


(5) 检查 正在 运行 的 作业 的 状态 。 
$ Hadoop job -status job 201201111540 0005 
你 会 在 屏幕 上 看 到 如 下 输出 。 


Job: job 201201111540 0005 

file: hdfs://head:9000/var/hadoop/mapred/system/ 
job 201201111540 0005/job.xml 

tracking URL: http://head:50030/jobdetails. 
jsp?jobid-job 201201111540 000 

map() completion: 1.0 

reduce() completion: 0.32666665 

Counters: 18 


(6) 把 最 后 提交 的 作业 的 优先 级 提高 为 VERY. HIGH. 

$ Hadoop job -set-priority job 201201111540 0007 VERY HIGH 
(7) 强制 结束 正在 运行 的 作业 。 

$ Hadoop job -kill job 201201111540 0005 


(8) 观察 其 余 作 业 ， 看 哪个 作业 开始 运行 。 





原理 分 析 





我 们 在 集群 上 启动 了 一 个 作业 , 并 连续 提交 男 两 个 作业 , 使 它们 处 于 排队 等 候 状 态 。 然 后 通 
过 hadoop job -1ist 命 令 确认 队列 中 的 作业 顺序 和 我 们 的 预期 一 致 。hadoop job-list all 
命令 会 列 出 所 有 已 完成 作业 和 目前 正在 运行 的 作业 ， 而 hadoop job -history 会 允许 我 们 更 详 
细 地 检查 作业 及 其 任务 的 信息 。 为 了 确认 已 提交 作业 处 于 运行 状态 ,我们 使 用 hadoop job 
-status 获 取 作 业 中 map 和 reduce 任 务 的 完成 进度 ， 以 及 作业 计数 器 的 状态 。 








接着 ,我们 使 用 hadoop job -set-priority 提 高 队列 中 最 后 一 个 作业 的 优先 级 。 

















使 用 hadoop job -kil1 命 令 强制 结束 正在 运行 的 作业 后 ， 我 们 确认 下 一 个 要 运行 的 是 刚 
提升 优先 级 的 作业 ， 即 使 留 在 队列 中 的 作业 的 提交 时 间 要 比 它 早 。 
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另 一 种 调度 器 


手动 修改 FIFO 队 列 中 作业 的 优先 级 的 办 法 确实 有 效 ， 但 它 需要 主动 监测 并 管理 作业 队列 。 
仔细 想 想 这 个 问题 ,我 们 发 现 出 现 这 种 局 面 的 原因 在 于 Hadoop 将 集群 资源 全 部 分 配给 了 正在 执行 
的 单个 作业 。 


Hadoop 提 供 了 另外 两 种 作业 调度 器 ， 它 们 采用 了 不 同 的 方法 ， 可 以 在 多 个 同时 运行 的 作业 
之 间 共 享 集 群 。Hadoop 还 提供 了 一 种 添加 额外 调度 器 的 插件 机 制 。 请 注意 , 资源 共享 是 一 个 在 概 
念 上 简单 ， 而 在 实现 上 非常 复杂 的 问题 ， 很 多 学 术 研 究 集中 在 这 个 领域 。 其 目标 不 光 是 在 特定 时 
间 点 提高 资源 分 配 率 ， 并 且 要 在 一 段 时 间 内 优先 运行 具有 较 高 优先 级 的 作业 。 


1. 计算 能 力 调度 器 


计算 能 力 调度 器 采用 多 个 作业 队列 , 每 个 队列 都 会 获得 一 部 分 集群 资源 。 用 户 提交 的 作业 会 
分 别 出 现在 各 个 队列 中 。 例如 ,用 户 可 以 为 运行 时 间 较 长 的 作业 维护 一 个 较 大 的 队列 , 并 为 它 分 
配 90% 的 集群 资源 ， 同 时 为 优先 级 较 高 的 作业 维护 一 个 较 小 的 队列 ， 并 为 该 队列 分 配 10% 的 集群 
资源 。 如 果 每 个 队列 中 都 有 一 些 待 执行 的 已 提交 作业 ， 和 集群 资源 就 按 此 比例 进行 分 配 。 


但 是 ,如 果 一 个 队列 中 的 所 有 作业 都 已 执行 完毕 ， 而 另 一 个 队列 中 还 有 待 执行 的 作业 ,计算 
能 力 调度 融会 暂时 将 空 队列 的 资源 分 配给 忙 队列 。 一 旦 作业 被 提交 至 空 队 列 , 该 队列 在 完成 正在 
运行 的 作业 之 后 会 再 次 获得 其 原 有 容量 。 该 方法 在 提高 资源 分 配 率 和 防止 资源 长 期 闲置 这 两 个 方 
面 取得 了 合理 的 平衡 。 


计算 能 力 调度 器 为 各 队列 实现 了 优先 级 功能 ， 尽 管 默认 情况 下 ， 这 一 功能 是 禁用 的 。 即 使 高 
优先 级 作业 的 提交 时 间 晚 于 低 优 先 级 作业 , 系统 会 在 出 现 可 用 计算 资源 时 优先 执行 高 优先 级 作业 。 


2. 公平 调度 器 


公平 调度 器 把 整个 集群 分 割 成 若干 个 资源 池 ， 系 统 将 用 户 提交 的 作业 分 配 到 各 个 资源 池 中 ， 
并 且 通 常用 户 和 资源 池 之 间 存 在 某 种 关联 。 尽管 默 认 情 况 下 , 各 个 资源 池 获 得 份额 相等 的 集群 资 
源 ， 但 我 们 可 以 修改 资源 分 配 比例 。 


在 各 资源 池 中 ， 默 认 模式 是 所 有 提交 到 该 池 的 作业 都 共享 其 资源 。 因 此 ， 假 设 集群 被 分 成 
Alice 和 Bob 两 个 资源 池 ， 其 中 每 个 池 中 都 有 3 个 作业 ,那么 集群 会 并 行 执行 这 6 个 作业 。 用 户 可 以 
限制 资源 池 中 并 行 作 业 的 总 数 , 因为 同时 运行 太 多 作业 会 产生 大 量 临 时 数据 , 总 的 来 说 会 降低 作 
业 的 运行 效率 。 

与 计算 能 力 调度 器 一 样 , 假如 某 个 资源 池 中 的 所 有 作业 都 已 执行 完毕 , 公平 调度 器 就 会 将 该 
池 的 集群 资源 分 配给 其 他 资源 池 , 并 在 该 池 重 新 收 到 作业 时 收回 自己 的 资源 。 它 也 支持 作业 优先 
级 ， 它 会 优先 安排 执行 高 优先 级 作业 ， 而 不 管 它 的 提交 时 间 是 否 早 于 低 优 先 级 作业 。 
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3. 启用 替代 调度 器 


Hadoop 安 装 路 径 下 的 contrib 路 径 中 包括 两 个 名 为 capacitySscheduler 和 fairSchedquler 
的 子 目 录 , 其 中 包含 一 些 以 JAR 文 件 形式 存在 的 替代 调度 器 。 为 了 启用 蔡 代 调度 器 , 要 么 将 其 JAR 
文件 添加 到 hadoop/1ib 目 录 下 ， 要 人 么 明确 地 在 classpath 中 加 入 文件 位 置 。 请 注意 ， 用 户 需 要 分 
别 为 各 个 调度 器 配置 其 属性 。 查 阅 文 档 以 获取 更 详细 的 信息 。 

4. 何 时 使 用 替代 调度 器 

替代 调度 器 非常 有 用 , 但 在 小 规模 集群 、 无 需 并 发 运行 多 个 作业 的 集群 或 者 无 需 保证 优先 执 
行 高 优先 级 作业 的 情况 下 ,并 不 需要 使 用 替代 调度 器 。 每 个 调度 右 都 有 多 个 配置 参数 ， 用 户 需 要 
调整 这 些 参数 以 达到 集群 资源 的 最 佳 利 用 率 。 但 对 有 着 多 个 用 户 和 多 种 作业 优先 级 的 大 规模 集 
群 ， 替 代 调 度 器 必 不 可 少 。 


























7.45 扩展 集群 规模 

目前 ， 用 户 已 经 搭建 了 一 个 Hadoop 集 群 ， 并 用 它 来 处 理 手头 的 数据 。 但 是 ， 随 着 数据 越 来 
越 多 , 需要 更 多 的 集群 资源 来 处 理 这 些 数 据 。 我 们 曾经 反复 说 过 ，Hadoop 是 一 个 易 扩 展 系 统 。 接 
下 来 ,我 们 将 扩展 集群 ， 提 升 其 计算 能 力 。 




















7.15.1 提升 本 地 Hadoop 集 群 的 计算 能 力 


我 希望 读 考 不 要 担心 如 何 为 正在 运行 的 集群 新 增 节 点 这 个 问题 。 在 第 6 章 中 ， 我 们 不 断 地 杀 
和 死 节 点 并 重启 。 与 之 相 比 ， 新 增 节 点 并 没有 什么 特别 之 处 ， 用 户 只 需 执 行 下列 步 又 即 可 。 


(1) 在 主机 上 安装 Hadoop。 
(2) 按照 第 2 章 中 讲 到 的 步骤 设置 环境 变量 。 
(3) 把 配置 文件 拷贝 到 安装 路 径 下 的 conf 目 录 中 。 


(4) 把 主机 的 DNS 名 或 PP 地址 加 到 slaves 文 件 中 ,该 文件 位 于 用 户 执行 slaves .sh、 
start-all.sh 或 stop-all .sh 的 节点 上 。 


这 就 是 所 需 的 全 部 步骤 。 




















EE 


一 展 身手 : 加 入 新 节点 并 运行 平衡 器 


尝试 在 集群 中 新 增 一 个 节点 ， 事 后 检查 HDFS 状 态 。 如 果 HDFS 处 于 失衡 状态 ， 运 行 平衡 
器 修复 失衡 现象 。 为 了 让 这 种 效果 更 明显 ， 可 以 在 新 增 节点 之 前 , 先 在 HDFS 上 存储 大 量 数据 。 
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7.15.2 ”提升 EMR 作 业 流 的 计算 能 


如 果 用 户 使 用 的 是 弹性 MapReduce， 对 非 持久 性 集群 而 言 ， 并 不 存在 扩展 集群 规模 的 概念 。 
为 在 设置 作业 流 时 , 用 户 就 指定 了 所 需 的 主机 数 和 主机 类 型 , 用户 只 需 保证 集群 规模 与 待 执行 
的 作业 相 匹 配 即 可 。 


扩展 正在 运行 的 作业 流 


但 是 , 有 时 用 户 希 望 尽快 执行 完 一 个 所 需 时 间 较 长 的 作业 。 在 这 种 情况 下 ， 用户 需 要 为 处 于 
运行 状态 的 作业 流 加 入 更 多 节点 。 回 想 一 下 ，EMR 有 3 种 不 同类 别 的 节点 : 运行 NameNode 和 
JobTracker 的 主 节 点 , 运行 HDFS 的 核心 节点 , 以 及 运行 MapReduce 作 业 的 任务 节点 。 在 此 情况 下 ， 
用 户 可 以 为 作业 流 新 增 任务 节点 到 达 更 快 执行 MapReduce 作 业 的 目的 。 


男 一 种 情况 是 , 用 户 定义 的 作业 流 包 括 一 系列 而 不 只 是 一 个 MapReduce 作 业 。EMR 人 允许 分 别 
修改 各 个 作业 流 的 配置 。 这 样 做 的 好 处 是 , 为 每 个 作业 提供 了 量 身 定制 的 硬件 配置 ,能 够 更 好 地 
控制 性 能 和 成 本 ， 在 二 者 之 间 取 得 平衡 。 


标准 的 EMR 数 据 处 理 模 型 是 ,作业 流 从 S3 读 取 源 数 据 ， 在 临时 的 EMR Hadoop 集 群 上 处 理 这 
些 数 据 , 然后 再 把 结果 写 回 到 S3。 但 是 ， 如 果 用 户 的 数据 集 规模 很 大 而 且 和 需要 频繁 处 理 , 反复 找 
贝 数据 是 一 项 非常 耗 时 的 工作 。 在 这 种 情况 下 ,可 以 使 用 另 一 种 模型 ， 那 就 是 在 作业 流 中 使 用 一 
个 持久 性 的 Hadoop 集 群 , 为 其 配备 足够 多 的 核心 节点 从 而 在 HDFS 存 储 所 需 数据 。 在 处 理 数 据 时 ， 
像 刚 才 说 的 那样 通过 为 作业 流 分 配 更 多 任务 节点 达到 提升 计算 能 力 的 目的 。 




































































过 API 或 命令 行 工 具 实现 这 一 功能 。 


| 目前 ，AWS 控 制 台 不 支持 为 正在 运行 的 作业 流 调整 集群 规模 ， 用 户 需要 通 | 


7.16 小 结 


本 章 讲述 了 如 何 搭建 、 维 护 和 扩展 Hadoop 集 群 。 特别 是 , 我 们 知道 了 哪个 文件 设置 了 Hadoop 
配置 属性 的 默认 值 , 以 及 如 何 通过 编写 代码 实现 作业 级 的 属性 设置 。 我 们 也 学 习 了 如 何 为 集群 选 
配 硬 件 ,购买 硬件 之 前 评估 工作 负载 的 重要 意义 ,以 及 Hadoop 如 何 获得 主机 所 处 机 柜 的 物理 位 置 ， 
从 而 优化 数据 块 放置 策略 。 


接着 ， 我 们 了 解 了 默认 的 Hadoop 安 全 模型 的 工作 原理 ， 它 的 弱点 以 及 应 对 之 策 。 我 们 还 
学 习 了 如 何 降低 NameNode 的 故障 风险 ( 见 第 6 章 )， 如 何在 灾难 袭 来 之 时 将 NameNode 迁 移 到 
一 台新 主机 。 我 们 也 学 习 了 数据 块 副本 放置 策略 ,集群 失 衡 的 原因 以 及 如 何 应 对 集群 的 失衡 
状态 。 
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我 们 还 研究 了 Hadoop 提 供 的 MapReduce 作 业 调 度 模型 ,学习 了 作业 优先 级 如 何 改 变 作业 执行 
顺序 , 计算 能 力 调度 器 和 公平 调度 器 如 何以 更 复杂 的 方式 为 多 个 并 发 作业 分 配 集群 资源 ,以 及 如 
何 扩展 集群 以 提高 其 计算 能 力 。 








本 书 对 Hadoop 核 心 内 容 的 研究 到 此 为 止 。 在 其 余 章 节 中 ， 我 们 会 接触 一 些 建立 在 Hadoop 基 
础 上 的 其 他 系统 和 工具 , 它们 可 以 帮助 用 户 更 精细 地 理解 数据 ,并 与 其 他 系统 协同 工作 。 在 下 一 
章 中 ， 我 们 将 学 习 使 用 Hive， 用 类 似 关 系数 据 库 的 概念 处 理 HDFS 上 的 数据 。 





第 8 d 


Hive: 数据 的 关系 视图 








MapReduce 是 一 个 功能 强大 的 数据 处 理 范式 ， 能 从 复杂 的 数据 处 理 过 程 
中 凝练 出 宝贵 的 结论 。 但 是 ， 它 把 数据 处 理 分 析 过 程 拆 分 成 一 系列 map 和 
Teduce 阶 段 ， 需 要 用 户 接受 这 种 理念 ， 进行 相应 的 训练 并 有 一 定 的 经 验 。 借助 
一 些 建立 在 Hadoop 基 础 上 的 产品 ， 用 户 能 从 更 高 或 更 熟悉 的 角度 理解 存储 在 
HDFS 上 的 数据 。 本 章 将 介绍 其 中 最 流行 的 一 款 工 具 ， 它 就 是 Hive。 


本 章 包括 以 下 内 容 : 


O 什么 是 Hive 以 及 使 用 Hive 的 原因 ; 

口 如 何 安装 并 配置 Hive; 

O 使 用 Hive 对 UFO 数 据 集 执行 类 SQL 分 析 ; 

口 Hive 与 关系 数据 库 的 共同 特点 ， 如 联结 和 视图 ; 
口 怎样 有 效 地 将 Hive 应 用 于 特大 数据 集 ; 

O Hive 如 何在 查询 语句 中 融入 用 户 自 定义 函数 ; 
口 Hive 与 另 一 款 常 用 工具 Pig 的 互补 关系 。 











8.1 Hive 概述 


Hive 是 建立 在 Hadoop 基 础 上 的 数据 仓库 , 它 使 用 MapReduce 对 存储 于 HDFS 上 数据 进行 分 析 。 
它 专门 定义 了 一 种 类 SQL (Structured Query Language ) 查询 语言 ， 我 们 称 之 为 HiveQL。 





8.1.1 为 什么 使 用 Hive 


在 第 4 章 中 , 我 们 介绍 了 Hadoop Streaming。 它 的 一 个 最 大 优势 在 于 缩短 了 MapReduce 作 业 的 
开发 周期 。Hive 可 以 进一步 缩短 开发 周期 。 它 没有 提供 更 快 地 开发 map 和 reduce 任 务 的 方法 ， 而 
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是 定义 了 一 种 类 SQL 查 询 语言 。Hive 使 用 HiveQL 语 句 表 述 查 询 操 作 , 并 立刻 将 其 自动 转化 成 一 个 或 
多 个 MapReduce 人 作业， 然后 执行 这 些 MapReduce 程 序 并 将 结果 反馈 给 用 户 。Hapoop Streaming 缩 短 了 
码 /编译 /提交 ”的 开发 周期 ， 而 Hive 则 完全 据 弃 了 这 一 过 程 ， 只 需 构 造 HiveQL 语 句 即 可 。 


Hadoop 的 这 个 接口 不 仅 加 速 了 从 分 析 数 据 到 生成 结果 的 过 程 ， 而 且 明 显 拓宽 了 Hadoop 和 
MapReduce 的 使 用 人 人群。 用户 要 想 使 用 Hadoop, 需要 首先 掌握 软件 开发 技术 。 而 现在 ,任何 熟悉 
SQL 的 用 户 都 可 以 使 用 Hive。 


为 Hive 同 时 具备 上 述 特性 ， 用 户 经 常用 它 进 行业 务 和 数据 分 析 ， 并 对 存储 在 HDFS 上 的 数 
据 执行 特殊 查询 。 直 接 使 用 MapReduce 需 要 在 执行 作业 前 编写 map 和 reduce 任 务 ， 这 就 意味 着 ， 
从 最 初 产生 某 种 查询 想法 到 实现 该 想法 的 过 程 会 产生 无 法 避免 的 延迟 。 而 使 用 Hive, 用 户 只 需 编 
写 精炼 的 HiveQL 查 询 语 句 就 可 直接 进行 数据 分 析 工 作 ， 不 再 需要 软件 开发 人 员 一 直 参 与 数据 分 
析 过 程 。 当 然 ，Hive 技 术 在 操作 层面 也 存在 一 些 实际 的 限制 (不 管 该 技术 功能 多 么 强大 ,糟糕 的 
查询 语句 的 执行 效率 很 低 )。 但 其 适用 范围 广 ， 这 一 点 还 是 很 吸引 人 的 。 
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8.1.2 感谢 Facebook 
我 们 曾 因 为 Google 、Yahoo! 和 Doug Cutting 对 Hadoop 的 杰出 贡献 深 表 感谢 ， 现 在 ， 我 们 必须 
衷心 感谢 Facebook。 


最 初 , Hive 是 由 Facebook 的 数据 组 开发 维护 的 , 在 Facebook 内 部 使 用 之 后 , 它 被 移交 给 Apache 
软件 基金 会 ， 此 后 ， 人 们 可 以 像 使 用 开源 软件 一 样 免费 使 用 Hive。 它 的 主页 地 址 是 http://hive. 


apache.org。 





8.2 设置 Hive 
本 节 我 们 将 介绍 如 何 下 载 、 安 装 并 配置 Hive。 


8.2.1 准备 工作 

与 Hadoop 不 同 , Hive 系 统 中 不 存在 主 节点 、 从 节点 或 工作 节点 。Hive 以 客户 端 应 用 程序 的 形 
式 运行 , 负责 处 理 HiveQL 查 询 , 将 查询 语句 转化 为 MapReduce 作 业 , 并 将 作业 提交 到 一 个 Hadoop 
集群 o 

虽然 Hive 提 供 了 一 种 适用 于 小 作业 和 开发 使 用 的 方式 , 但 通常 情况 下 ，Hive 需 要 一 个 现 有 的 
正在 运行 的 Hadoop 集 群 来 配合 运行 MapReduce 作 业 。 

正如 其 他 Hadoop 客 户 端 不 需要 在 实际 的 集群 节点 上 执行 ，Hive 可 以 在 符合 下 列 条 件 的 任何 
主机 上 执行 : 
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口 安装 了 Hadoop 的 主机 (即使 主机 上 没有 正在 运行 的 进程 ); 
口 把 HAPOOP_HOME 环 境 变 量 的 值 设 置 为 Hadoop 安 装 目录 的 主机 ; 
口 系统 路 径 或 用 户 路 径 中 出 现 $ {HADOOP_HOME}/bin 目 录 的 主机 。 








8.2.2 下 载 Hive 
读者 可 以 从 http://hive.apache.org/releases.html 下 载 到 Hive 的 最 新 稳定 版 本 。 


Hive 入 门 指南 ( 其 网 址 为 http://cwiki.apache.org/confluence/display/Hive/GettingStarted ) 会 从 
兼容 的 角度 为 用 户 推 荐 合适 的 版 本 ,但 一 般 情况 下 ， 可 以 预见 ，Hive 、Hadoop 和 Java 的 最 新 稳定 
版 应 当 能 够 协同 工作 。 





8.3 ”实践 环节 : 安装 Hive 

接 下 来 ， 我 们 将 安装 并 配置 Hive， 以 便 日 后 使 用 。 

(1) 下 载 Hive 的 最 新 稳定 版 本 ， 并 将 其 放 到 安装 目录 下 。 
$ mv hive-0.8.1.tar.gz /usr/local 

(2) 解压 安装 包 。 
$ tar -xzf hive-0.8.1.tar.gz 

(3) 把 安装 路 径 设 为 变量 HIVE HOME 的 值 。 
$ export HIVE HOME-/usr/local/hive 

(4) 将 HIVE 的 主 目录 添加 到 PATH 变量 中 : 
$ export PATH-S$(HIVE HOME)/bin:$(PATH) 

(5) Æ HDFS 上 创建 Hive 所 需 路 径 /tmp fe/user/hive/warehouse., 


$ hadoop fs -mkdir /tmp 
$ hadoop fs -mkdir /user/hive/warehouse 


(6) 修改 上 述 路 径 的 访问 权限 ， 使 用 户 组 具有 写 入 权限 。 


$ hadoop fs -chmod g+w /tmp 
$ hadoop fs -chmod g-«w /user/hive/warehouse 


(7) 试 着 启动 Hive。 
$ hive 


该 命令 的 执行 结果 如 下 所 示 。 
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Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1ib/hive-common-0.8.1.jar!/hive-log4j.properties 


Hive history file-/tmp/hadoop/hive job log. 
hadoop 201203031500 480385673.txt 
hive» 


(8) 退出 Hive 的 交互 式 shell。 


$ hive» quit; 


原理 分 析 





下 载 到 Hive 的 最 新 稳定 版 安装 包 之 后 , 我 们 将 其 拷贝 至 安装 位 置 并 解压 文件 。 这 一 步 会 自动 
创建 一 个 名 为 hive-<version> 的 目录 。 


与 之 前 定义 HADOOP_HOME 并 将 安装 目录 下 的 bin 路 径 添 加 到 path 变 量 类 似 ， 我们 定义 了 
HIVE_HOME 并 将 Hive 的 bin 路 径 添 加 至 path 变 量 。 








请 记 住 , 为 了 避免 用 户 每 次 登录 都 要 设置 这 些 变量 , 可 以 把 它们 添加 到 用 户 
登录 的 shell 脚 本 或 一 个 单独 的 配置 脚本 中 , 这 样 用 户 使 用 Hive 时 只 需 调 用 这 些 脚 
AFP. 


接着 ， 我 们 在 HDFS 上 创建 了 两 个 Hive 要 用 到 的 目录 ， 并 修改 它们 的 属性 ， 使 用 户 组 具有 对 该 
目录 的 写 人 人 权限。 默认 情况 下 ，Hive 会 把 执行 查询 语句 产生 的 临时 数据 写 信 /tmp 目录 ， 除 此 之 外 ， 
输出 数据 也 会 被 写 人 该 目录 。/user/hive/warehouse 目 录 则 用 于 存储 写 信 Hive 表 中 的 数据 。 


完成 这 些 设置 之 后 ， 我 们 运行 hive 命 令 。 如 果 安 装 成 功 的 话 ， 该 命令 的 输出 与 上 述 输出 类 
似 。 不 带 任何 参数 运行 hive 命 令 , 会 进入 一 个 交互 shell。hive> 提 示 符 类 似 于 关系 数据 库 中 的 交 
互 工具 sql> 或 mysql>。 


接着 ,我 们 输入 quit ;命令 退出 交互 shell。 一 定 要 注意 末尾 的 分 号 ; 。 如 前 所 述 ，HiveQL 与 
SQL 非常 相似 ， 并 遵循 SQL 中 关于 “所 有 命令 必须 以 分 号 结束 ”的 约定 。 没 有 输入 分 号 而 按 下 回 
车 键 ， 意 味 着 用 户 将 在 下 一 行 继续 输入 命令 。 






































8.4 使 用 Hive 


成 功 安装 Hive 之 后 ， 我 们 将 用 它 来 分 析 第 4 章 介绍 过 的 UFO 数 据 集 。 
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向 Hive 导 入 新 数据 的 过 程 通常 分 为 以 下 3 个 阶段 。 


(D) 定义 表 的 各 个 字段 ， 该 表 将 用 于 导入 数据 。 
(2) 把 数据 导入 已 创建 的 表 中 。 
(3) 针对 上 表 执 行 HiveQL 查 询 。 


上 述 过 程 与 关系 数据 库 中 的 操作 非常 相似 。Hive 支 持 数据 的 结构 化 查询 视图 , 在 执行 任何 查 
询 之 前 ， 我 们 必须 首先 为 表 的 每 列 定义 规范 并 把 数据 导 和 人 表 中 。 








我 们 假设 读者 较为 熟悉 SQL 语言 , 所 以 本 章 内 容重 在 介绍 怎样 使 用 Hive 处 理 

A 数据 ， 而 不 会 详细 解释 SQL 的 某 个 概念 。 不 太 热 悉 SQL 语 言 的 读者 可 以 在 手边 准 

一 备 一 本 SQL 参考 手册 ， 虽 然 我 们 保证 读者 能 够 理解 每 条 SQL 语句 的 功能 ,但 有 些 
语句 的 细节 可 能 需要 读者 深入 研究 。 


[ry * -H- Nx 
8.5 ”实践 环节 : 创建 UFO 数据 表 

接 下 来 ， 通 过 下 列 步 骤 新 建 一 个 表 ， 并 把 UFO 数据 导入 该 表 。 

(1) 启动 Hive 的 交互 式 shell。 
$ hive 

(2) 为 UFO 数据 集 创建 表 。 为 了 增强 可 读 性 ， 我 们 将 相关 语句 分 成 多 行 显示 。 
hive» CREATE TABLE ufodata(sighted STRING, reported STRING, 
sighting location STRING, » shape STRING, duration STRING, 
description STRING COMMENT 'Free text description') 
COMMENT 'The UFO data set.' ; 


输入 上 述 语句 之 后 ，Hive 的 输出 结果 如 下 所 示 。 


OK 
Time taken: 0.238 seconds 


(3) 列 出 所 有 现 有 表 。 
hive» show tables; 
该 命令 的 执行 结果 如 下 所 示 。 
OK 
ufodata 


Time taken: 0.156 seconds 


(4) 显示 与 正则 表达 式 “.*data” 匹 配 的 表 。 
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hive» show tables '.*data'; 
该 命令 的 执行 结果 如 下 所 示 。 
OK 


ufodata 
Time taken: 0.065 seconds 


(5) 验证 表 中 各 字段 的 定义 。 
hive» describe ufodata; 
该 命令 的 执行 结果 如 下 所 示 。 
OK 


sighted string 
reported string 


sighting location string 

shape string 

duration string 

description string Free text description 


Time taken: 0.086 seconds 
(6) 更 详细 地 显示 对 表 的 描述 。 
hive» describe extended ufodata; 
该 命令 的 执行 结果 如 下 所 示 。 
OK 


sighted string 

reported string 

Detailed Table Information  Table(tableName:ufodata, 
dbName:default, owner:hadoop, createTime:1330818664, 
lastAccessTime:0, retention:0, 





-..location:hdfs://head:9000/user/hive/warehouse/ 

ufodata, inputFormat:org.apache.hadoop.mapred. 
TextInputFormat,outputFormat:org.apache.hadoop.hive.ql.io. 
HivelgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, 


原理 分 析 





启动 Hive 交 互 程序 后 ， 我 们 用 CREATE TABLE 命 令 来 定义 UFO 数 据 表 的 结构 。 和 标准 SQL 一 
样 ，HiveQL 要 求 为 表 中 的 每 列 指定 列 名 和 数据 类 型 。HiveQL 还 可 以 为 每 列 和 整个 表 加 入 可 选 注 
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释 ， 上 例 中 ， 我 们 为 “description” 列 和 全 表 加 入 了 注释 。 


针对 UFO 数 据 ， 我 们 定义 该 表 中 所 有 字段 的 数据 类 型 为 STRING。 和 SQL 一 样 ，HiveQL 也 文 








口 布尔 类 型 : BOOLEAN 
C) 整数 类 型 : TINYINT、INT、BIGINT 
口 浮 点 类 型 : FLOAT, DOUBLE 
口 文本 类 型 : STRING 

创建 表 之 后 ， 使 用 sHow TABLES 语 句 来 确认 表 已 经 创建 成 功 。 该 命令 会 列 出 系统 中 所 有 的 
表 ， 在 我 们 这 个 例子 中 ， 系 统 中 只 有 一 个 UFO 表 。 

接着 ， 我 们 使 用 sHow TABLES 语 句 的 变 体 ， 该 语句 附带 了 一 个 可 选 的 JAVA 正 则 表达 式 ， 用 
于 列 出 与 正则 表达 式 匹 配 的 所 有 表 。 本 例 中 , 输出 结果 与 上 个 命令 完全 相同 , 但 当 系 统 中 存在 许 
多 表 的 时 候 ， 尤 其 是 不 知道 表 的 准确 名 称 的 时 候 ， 这 种 变 体 非常 有 用 。 






























































我 们 已 成 功 创建 了 表 , 但 还 没有 验证 该 表 的 结构 是 否 合理 。 下 一 步 , 我 们 将 
使 用 DESCRIBE TABLE 命 令 显示 特定 表 的 详细 信息 。 我 们 看 到 ， 所 有 字段 都 和 预 








期 相同 (尽管 该 命令 不 能 返回 表 的 注释 信息 )。 接 下 来 ， 我 们 使 用 DESCRIBE 
TABLE EXTENDED 命 令 获 取 该 表 的 更 多 信息 。 











上 例 中 ,我们 略 去 了 最 终 输 出 数据 的 大 部 分 内 容 ， 仅 展示 其 中 有 意思 的 一 小 部 分 。 请 注意 ， 
输入 格式 被 指定 为 TextInputFormat。 默认 情况 下 ,Hive 假 设 插 入 表 中 的 所 有 HDFS 文 件 都 以 文 
本 文件 的 形式 存在 。 


同时 ， 我 们 还 观察 到 ， 表 数据 存储 在 之 前 创建 的 HDFS 目 录 /user/hive/warehouse 下 。 





关于 字符 大 小 写 的 提示 


照 惯例 ，SQL 语 句 中 的 关键 词 使 用 大 写字 母 ， 我 们 通常 会 在 编写 脚本 文件 中 的 
HiveQL 语 句 时 遵照 这 个 惯例 ， 稍 后 会 在 具体 示例 中 看 到 。 但 是 ， 在 输入 交互 式 
命令 上 时， 我 们 通常 会 选用 最 简单 的 方式 一 一 使 用 小 写字 符 。 


总 就 像 SQL 一 样 ，HiveQL 对 关键 词 、 列 名 、 表 名 中 的 字符 不 区 分 大 小 写 。 按 





8.6 KRD: 在 表 中 插入 数据 


上 一 节 我 们 完成 了 表 的 创建 工作 ， 接 下 来 ， 我 们 将 把 UFO 数据 导入 ufodata X. 
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(1) 将 UFO 数据 文件 拷贝 至 HDFS。 

$ hadoop fs -put ufo.tsv /tmp/ufo.tsv 
(2) 确认 文件 已 成 功 复制 到 HDFS。 

$ hadoop fs -ls /tmp 

上 述 命令 的 结果 如 下 所 示 。 


Found 2 items 


drwxrwxr-x - hadoop supergroup 0 ... 14:52 /tmp/hive- 

hadoop 

-rw-r--r-- 3 hadoop supergroup 75342464 2012-03-03 16:01 /tmp/ 
ufo.tsv 


(3) 进入 Hive 交互 式 shell; 
$ hive 
(4) 把 步骤 1 复制 到 HDFS 的 文件 数据 插入 ufodata 表 中 。 


hive» LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE 
ufodata; 


上 述 命令 的 结果 如 下 所 示 。 


Loading data to table default.ufodata 
Deleted hdfs://head:9000/user/hive/warehouse/ufodata 


OK 
Time taken: 5.494 seconds 


(5) 退出 Hive shell. 
hive» quit; 


(6) 检查 HDFS 上 存放 UFO 数据 副本 的 目录 。 





$ hadoop fs -ls /tmp 
上 述 命令 的 结果 如 下 所 示 。 
Found 1 items 


drwxrwxr-x - hadoop supergroup 0 ... 16:10 /tmp/hive- 
hadoop 


原理 分 析 


首先 , 我 们 把 第 4 章 中 用 到 的 以 tab 键 分 隔 的 UFO 数 据 文件 拷贝 至 HDFS。 确认 HDFS 上 存 有 文 
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件数 据 后 ， 我 们 启动 Hive 交 互 shell 并 用 LOAD DATA 命 令 将 文件 数据 载 人 ufodata 表 。 


因为 我 们 使 用 的 文件 已 经 放 到 了 HDFS 上 ， 所 以 单独 使 用 INPATH 关 键 词 来 指定 源 文件 的 位 
置 。 我 们 还 可 以 通过 LocAL INPATH 指 定位 于 本 地 文件 系统 上 的 源 文件 , 将 它 直 接 导 入 Hive 表 中 。 
这 样 就 不 必 明 确 地 将 本 地 文件 系统 上 的 源 文件 拷贝 到 HDFS 。 

在 把 UFO 数 据 导入 ufodata 表 的 Hive 语 句 中 , 我 们 指定 了 OVERWRITE 关 键 词 , 它 会 在 导 人 新 
数据 前 删除 表 中 原 有 数据 。 从 该 命令 的 执行 结果 可 以 看 出 , 使 用 ovERWRITE 会 把 存放 表 数 据 的 目 
录 清 空 ， 因 此 要 谨慎 使 用 该 语句 。 

请 注意 ，Hive 系 统 用 了 5 秒 多 时 间 来 执行 该 命令 ， 明 显 多 于 把 UFO 数 据 文件 拷贝 至 HDFS 的 
时 间 。 






































虽然 我 们 在 本 例 中 明确 使 用 了 一 个 源 文件 ， 但 我 们 通过 指定 一 个 目录 作为 
INPATH 的 参数 ， 使 用 一 条 LOAD 命 令 导 入 多 个 文件 。 在 这 种 情况 下 ， 目 录 中 的 
所 有 文件 都 会 导入 到 表 中 。 











退出 Hive shell 之 后 ， 我 们 再 次 查看 刚刚 存放 ufo 数 据 文件 副本 的 目录 ， 结 果 发 现 该 目录 已 被 
删除 。 如 果 传 给 LoaAp 语 名 的 是 HDFS 上 的 数据 路 径 ， 那 么 Loap 语 名 不 光 会 将 数据 复制 到 
/user/hive/datawarehouse， 同 时 也 会 误 掉 其 原始 目录 。 如 果 读 者 想 分 析 HDFS 上 被 其 他 程 
序 使 用 的 数据 ， 要 么 备份 一 个 副本 ,要么 使 用 后 面 将 讲 到 的 EXTERNAL 方 案 。 
































8.6.1 验证 数据 


在 将 数据 导入 Hive 表 之 后 , 一 种 好 的 做 法 是 , 立刻 进行 一 些 快 速 验证 查询 ， 以 确定 所 建 的 表 
及 表 中 数据 和 预期 一 致 。 有 时 候 ， 通 过 验证 查询 发 现 ， 表 的 初始 定义 就 是 错误 的 。 

















8.7 ”实践 环节 : 验证 表 
进行 初步 验证 的 最 简单 方法 就 是 ， 执 行 一 些 统计 查询 以 验证 导入 数据 是 否 正确 。 这 与 第 4 
章 使 用 Hadoop Streaming 执行 的 任务 类 似 。 
(1) 在 hive 命令 行 工具 中 输入 以 下 HiveQL 语 句 ， 它 会 统计 表 中 的 记录 总 数 , 记得 不 要 使 用 
Hive shell, 
$ hive -e "select count(*) from ufodata;" 
该 命令 的 执行 结果 如 下 所 示 。 


Total MapReduce jobs = 1 
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Launching Job 1 out of 1 
Hadoop job information for Stage-1: number of mappers: 1; number 
of reducers: 1 


2012-03-03 16:15:15,510 Stage-1 map = 0%, reduce = 0% 
2012-03-03 16:15:21,552 Stage-1 map = 100%, reduce = 0% 
2012-03-03 16:15:30,622 Stage-1 map = 100%, reduce = 100% 
Ended Job = job 201202281524 0006 

MapReduce Jobs Launched: 

Job 0: Map: 1 Reduce: 1 HDFS Read: 75416209 HDFS Write: 6 
SUCESS 

Total MapReduce CPU Time Spent: 0 msec 

OK 

61393 


Time taken: 28.218 seconds 

(2) 作为 示例 ， 从 sighted 列 选 取 $ 个 值 。 
$ hive -e "select sighted from ufodata limit 5;" 
该 命令 的 执行 结果 如 下 所 示 。 


Total MapReduce jobs = 1 

Launching Job 1 out of 1 

OK 

19951009 19951009 Iowa City, IA Man repts. witnessing 
&quot;flash, followed by a classic UFO, w/ a tailfin at 

back.&quot; Red color on top half of tailfin. Became triangular. 
19951010 19951011 Milwaukee, WI 2 min. Man on Hwy 43 SW 
of Milwaukee sees large, bright blue light streak by his car, 

descend, turn, cross road ahead, strobe. Bizarre! 





19950101 19950103 Shelton, WA Telephoned Report:CA 

woman visiting daughter witness discs and triangular ships over 
Squaxin Island in Puget Sound. Dramatic. Written report, with 
illustrations, submitted to NUFORC. 

19950510 19950510 Columbia, MO 2 min. Man repts. son&apos;s 
bizarre sighting of small humanoid creature in back yard. Reptd. 

in Acteon Journal, St. Louis UFO newsletter. 

19950611 19950614 Seattle, WA Anonymous caller repts. 


sighting 4 ufo&apos;s in NNE sky, 45 deg. above horizon. (No 
other facts reptd. No return tel. d.) 
Time taken: 11.693 seconds 


原理 分 析 





本 例 中 ， 我 们 没有 使 用 Hive 交 互 式 shell， 而 是 直接 在 hive -e 命 令 中 使 用 HiveQL 语 句 。 交 
互 式 shell 一 般 用 于 处 理 一 系列 的 Hive 操 作 。 对 一 些 简单 的 语句 , 直接 把 HiveQL 查 询 语 句 传 人 命令 
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行 工具 更 方便 简洁 。 也 就 是 说 ， 在 脚本 中 也 可 以 调用 Hive。 


当 使 用 hive-e 时 ， 没 必要 再 用 分 号 作为 HiveQL 语句 的 结束 符 ， 但 有 时 候 很 
SN 难 改 掉 这 个 习惯 。 如 果 你 起 在 同一 语句 中 执行 多 个 命令 ， 就 必须 用 分 号 分 开 这 些 


























第 一 次 查询 的 结果 是 61393 ， 与 我 们 之 前 直接 用 MapReduce 分 析 UFO 数 据 集 时 得 到 的 结果 是 
一 样 的 。 这 表明 整个 数据 集 确实 已 被 导入 表 中 。 

接着 ,我 们 执行 了 第 二 次 查询 ， 即 从 表 的 第 一 列 选 取 5 个 值 ， 我 们 希望 它 返 回 UFO 出 现 的 5 
个 具体 日 期 。 但 结果 却 是 5 条 包括 UFO 出 现 日 期 在 内 的 完整 记录 。 

出 现 这 种 问题 的 原因 在 于 , 我 们 依靠 Hive 把 数据 文件 以 文本 文件 的 形式 导入 表 中 , 却 没 有 考 
虑 各 列 之 间 的 分 隔 符 。 我 们 的 数据 文件 以 tab 作 为 分 隔 符 , 但 在 默认 情况 下 ,Hive 认 为 其 输入 文件 
的 分 隔 符 是 ASCII 码 00 ( control-A )。 











T 








8.8 实践 环节 : 用 正确 的 列 分 隔 符 重 定义 表 


下 面 ， 我 们 将 修正 表 规 范 。 
(1) 把 下 列 HiveQL 语句 保存 为 commands .hql 文件 。 


DROP TABLE ufodata ; 

CREATE TABLE ufodata(sighted string, reported string, sighting . 
location string, 

shape string, duration string, description string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' ; 

LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE ufodata ; 





(2) 把 数据 文件 拷贝 至 HDFS。 

$ hadoop fs -put ufo.tsv /tmp/ufo.tsv 
(3) 执行 HiveQL 脚本 : 

$ hive -f commands.hql 

该 脚本 的 执行 结果 如 下 所 示 。 


OK 

Time taken: 5.821 seconds 

OK 

Time taken: 0.248 seconds 

Loading data to table default.ufodata 

Deleted hdfs://head:9000/user/hive/warehouse/ufodata 
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OK 
Time taken: 0.285 seconds 


(4) 验证 表 中 数据 的 总 行 数 。 
$ hive -e "select count(*) from ufodata;" 
该 命令 的 执行 结果 如 下 所 示 。 


OK 
61393 
Time taken: 28.077 seconds 


(5) 验证 reported 列 的 内 容 。 
$ hive -e "select reported from ufodata limit 5" 
该 命令 的 执行 结果 如 下 所 示 。 


OK 

19951009 

19951011 

19950103 

19950510 

19950614 

Time taken: 14.852 seconds 


原理 分 析 

本 例 中 ， 我 们 介绍 了 调用 HiveQL 命 令 的 第 三 种 方法 。 除 了 使 用 交互 shel] 或 在 Hive 工 具 中 使 
用 查询 语句 ，Hive 还 可 以 从 包含 多 条 Hive 语 名 的 文件 中 读 取 其 内 容 ， 并 执行 这 些 命令 。 

首先 ， 我 们 创建 了 这 样 一 个 文件 ， 它 先 删除 旧 表 ， 然 后 新 建 一 个 表 ， 并 把 数据 导入 新 表 。 


新 定义 的 表 规 约 与 前 一 个 的 主要 区 别 在 于 ， 前 者 用 到 了 Row FORMAT 和 FIELDS TERMINATED BY 
语句 。 这 两 条 语句 都 是 必需 的 : 第 一 条 命令 告诉 Hive 每 行 数据 包含 多 个 有 界 字段 ， 而 第 二 条 命令 则 
指定 了 真正 的 分 隔 符 。 可 以 看 出 ， 我 们 既 可 以 用 明确 的 ASCI 码 也 可 以 用 常用 的 \t 符 号 来 表示 tab。 









































TIN 在 指定 分 隔 符 的 时 候 要 多 加 小 心 , 它 必须 准确 无 误 并 且 要 区 分 大 小 写 。 不 要 
因为 大 意 把 \t 误 写 为 \T 而 浪费 几 个 小 时 的 时 间 ， 我 最 近 就 犯 过 类 似 错误 。 








在 运行 commands .hql 脚 本 之 前 ， 我 们 再 次 把 UFO 数 据 文件 复制 到 HDFS (上 一 个 文件 副本 
已 被 DELETE 命 令 删 除 )， 然 后 使 用 hive -f 来 执行 HiveQL 脚 本 文件 。 
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和 之 前 一 样 , 我 们 接 下 来 执行 两 个 简单 的 SELECT 语句 , 第 一 条 语句 用 于 统计 表 中 的 总 行 数 ， 
第 二 条 语句 用 于 列 出 某 个 指定 列 的 一 小 部 分 值 。 

不 出 所 料 ， 总行 数 与 前 一 个 例子 的 结果 一 致 。 与 前 一 个 例子 相 比 , 第 二 条 语句 的 结果 看 起 来 
是 正确 的 ， 说 明 Hive 按 照 每 行 数据 的 组 成 字段 进行 了 正确 拆 分 。 








8.8.1 ”Hive 表 是 个 逻辑 概念 


如 果 读 者 仔细 观察 上 个 例子 中 各 命令 的 运行 时 间 , 可 能 会 发 现 一 种 看 似 奇怪 的 现象 。 把 数据 
导入 表 所 用 的 时 间 和 创建 表 规 约 所 用 时 间 基 本 一 样 , 但 是 , 统计 总 行 数 这 样 的 简单 任务 却 用 了 较 
长 的 时 间 。 输 出 结果 也 表明 ， 表 的 创建 和 数据 导入 并 没有 真正 引起 MapReduce 作 业 的 执行 ， 这 就 
解释 了 为 什么 执行 这 些 任务 所 用 时 间 较 短 。 

把 数据 导入 Hive 表 的 过 程 不 同 于 我 们 依据 传统 数据 库 经 验 给 出 的 判断 。 虽然 Hive 把 数据 文件 
拷 入 工作 路 径 , 但 事实 上 它 并 没有 在 这 个 时 候 将 输入 数据 搬入 表 中 各 行 。 与 之 相反 ,， 它 以 源 数据 
为 基础 创建 了 一 批 元 数据 ， 后 续 HiveQL 查 询 将 用 到 这 些 元 数据 。 

如 此 说 来 ，CREATE TABLE 和 LOAD DATA 语 句 都 不 会 创建 实际 的 表 数 据 ， 只 是 生成 一 些 元 数据 。 
当 Hive 使 用 HiveQL 转 换 成 的 MapReduce 作 业 访 问 概念 上 存储 在 表 中 的 数据 时 , 将 会 用 到 这 些 元 数据 。 























8.9 ”实践 环节 : 基于 现 有 文件 创建 表 


截至 目前 ， 我 们 学 习 了 如 何 把 Hive 有 效 控制 的 文件 数据 直接 导入 Hive 表 。 然 而 ， 我 们 也 可 
以 为 Hive 外 部 文件 数据 创建 表 。 在 需要 使 用 Hive 处 理 外 部 程序 写 入 和 管理 的 数据 或 数据 存储 于 
Hive 仓库 之 外 的 路 径 的 时 候 ， 这 种 方法 特别 有 用 。 用 户 不 必 把 这 些 文件 移 到 Hive 仓库 目录 下 ， 
用 户 删 除 表 时 也 不 会 影响 到 这 些 文件 的 可 用 性 。 

(D) 将 以 下 内 容 存 入 states.sql 脚本 文件 。 

CREATE EXTERNAL TABLE states (abbreviation string, full name 
string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

LOCATION '/tmp/states' ; 


(2) 把 数据 文件 states .txt 拷贝 到 HDFS， 然 后 确认 该 文件 确实 存在 。 


$ hadoop fs -put states.txt /tmp/states/states.txt 
$ hadoop fs -1s /tmp/states 


上 述 命令 的 执行 结果 如 下 所 示 。 


Found 1 items 
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-rw-r--r-- 3 hadoop supergroup 654 2012-03-03 16:54 /tmp/ 
states/states.txt 


(3) 执行 HiveQL 脚本 。 
$ hive -f states.hql 
该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1ib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history file-/tmp/hadoop/hive job log 

hadoop 201203031655 1132553792.txt 

OK 

Time taken: 3.954 seconds 

OK 

Time taken: 0.594 seconds 


(4) 检查 源 数据 文件 。 
$ hadoop fs -1s /tmp/states 
该 命令 的 执行 结果 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 654 ... /tmp/states/states. 
txt 


(5) 对 刚 创建 的 表 执 行 一 次 示例 查询 。 


$ hive -e "select full name from states where abbreviation like 
'CA' " 


该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1ib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history file-/tmp/hadoop/hive job log 

hadoop 201203031655 410945775.txt 

Total MapReduce jobs = 1 

... OK 

California 

Time taken: 15.75 seconds 





原理 分 析 











创建 外 表 的 HiveQL 语 句 和 之 前 使 用 的 cREATE TABLE 语 句 格 式 稍 有 不 同 。 关 键 字 EXTERNAL 
表明 该 表 存 在 于 Hive 控 制 之 外 的 位 置 ， 同 时 LocATION 子 句 指 明了 源 文件 或 源 目 录 的 位 置 。 


在 创建 了 HiveQL 脚 本 之 后 ,我们 把 源 数 据 文件 拷贝 至 HDFS。 我 们 使 用 第 4 章 用 到 的 states 文 
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件 作 为 表 的 源 数据 ， 该 文件 存储 了 美国 州 名 全 称 与 双 字符 缩写 之 间 的 映射 关系 。 


确认 源 文件 确实 存在 于 HDFS 上 之 后 ， 我 们 执行 查询 语句 来 创建 表 并 再 次 检查 源 文件 。 与 上 
个 例子 不 同 , 我 们 没有 把 源 文件 移 到 /user/hive/warehouse 目 录 下 , states. txt 文 件 依然 存 
在 于 HDFS 上 的 拷贝 路 径 。 


最 后 , 我 们 针对 所 创建 的 表 执 行 查询 , 查询 结果 验证 了 表 中 数据 即 为 源 数据 。 这 也 突出 了 本 
例 与 CREATE TABLE 的 另 一 个 区 别 : 在 上 例 中 非 外 部 表 的 情况 下 ， 创 建 表 的 语句 不 会 把 数据 插入 
表 中 ， 而 是 由 后 续 LOAD DATA 或 INSERT 语 句 ( 稍 后 介绍 该 语句 ) 向 表 中 插入 数据 。 在 定义 表 时 
用 LocATION 关 键 词 指定 源 文件 位 置 ， 可 以 在 创建 表 的 同时 把 数据 插入 表 中 。 


现在 ,Hive 中 已 有 两 个 表 , 较 大 的 表 用 于 存储 UFO 目 击 事件 数据 , 较 小 的 表 用 于 存储 美国 州 
名 缩写 。 如 果 用 第 二 个 表 的 数据 来 充实 第 一 个 表 的 location 列 ， 会 不 会 很 有 意义 ? 






































8.10 实践 环节 : 执行 联结 操作 


SQL 中 经 常用 到 联结 这 一 工具 ， 但 在 新 语言 中 使 用 联结 似乎 不 太 容 易 。 实 质 上 ， 联 结 可 以 
于 某 个 条 件 语句 实现 多 表 数 据 行 的 逻辑 组 合 。Hive 支持 多 种 形式 的 数据 联结 , 接 下 来 我 们 将 研 


pe 


3 


e 


(I) 把 下 列 内 容 存 入 join.hal 脚本 文件 。 


SELECT til.sighted, t2.full name 
FROM ufodata t1 JOIN states t2 











ON (LOWER(t2.abbreviation) = LOWER(SUBSTR( ti.sighting location, 
(LENGTH(tl.sighting location)-1)))) 
LIMIT 5 ; 

Q) 执行 上 述 查 询 。 


$ hive -f join.hq1 
该 命令 的 执行 结果 如 下 所 示 。 


OK 

20060930 Alaska 
20051018 Alaska 
20050707 Alaska 
20100112 Alaska 
20100625 Alaska 

Time taken: 33.255 seconds 


原理 分 析 


实际 上 ， 本 例 实 现 的 联结 查询 相对 人 简单。 我 们 想 从 一 系列 记录 中 提取 sighted 和 location 字 上段 ， 
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但 不 想 使 用 location 字 段 的 原始 数据 ， 而 是 想 把 该 字段 映射 为 州 名 全 称 。 我 们 创建 的 HiveQL 文 件 执 
行 的 就 是 这 个 查询 任务 。HiveQL 使 用 标准 的 roIN 关 键 词 指 定 联结 语句 , 并 用 oN 子 句 指定 匹配 条 件 。 


由 于 Hive 只 支持 等 联结 ， 也 就 是 说 ，ON 子 句 中 只 能 进行 等 式 检查 ， 受 此 限制 ， 事 情 变 得 有 
些 复 杂 。 联 结语 句 中 的 条 件 子 句 不 能 包含 >、? 、< 等 操作 符 ， 以 及 我 们 常用 的 LIKE 关 键 字 。 


但 是 ,我 们 反而 有 机 会 介绍 一 些 Hive 的 内 置 函 数 。 尤 其 是 , 把 字符 串 转换 为 小 写字 母 的 LOWER 
函数 ， 提 取 字 符 串 子 串 的 SUBSsTR 函 数 ， 以 及 返回 字符 串 中 字符 总 数 的 LENGTH 函 数 。 


我 们 知道 ， 大 多 数 location 记 录 采 用 了 “城市 ， 州 名 缩写 ”的 形式 。 所 以 ， 要 使 用 soBsmR 
提取 字符 串 中 倒数 第 二 个 和 个 数 第 三 个 字符 ， 使 用 ength 计 算 字 符 曲 长 度 。 由 于 我 们 无 法 保证 
表 中 的 所 有 记录 都 采用 了 统一 的 大 小 写 形式 , 因此 还 要 通过 LOWER 丽 数 把 州 名 缩写 和 提取 到 的 字 
符 串 都 转换 成 小 写 形式 。 

在 脚本 执行 完毕 之 后 ， 我 们 发 现 输出 结果 与 预期 一 致 ， 它 的 确 包含 了 目击 事件 的 发 生日 期 ， 
并 用 州 名 全 称 取代 了 州 名 缩写 。 

请 注意 , ITMTr 子 句 限制 了 输出 的 查询 结果 中 包含 的 行 数 。 这 也 表明 ,HiveQL 与 SQL 的 某 些 
字 词 非常 相似 ， 这 些 字 词 也 被 MySQL 之 类 的 开源 数据 库 所 采纳 。 


本 例 展示 了 内 部 联结 的 用 法 。 除 此 之 外 ，Hive 还 支持 左 外 联结 、 右 外 联结 和 左 半 联 结 。 如 何 
在 Hive 中 使 用 联结 ， 其 中 包含 很 多 微妙 之 处 ， 如 前 述 等 联结 限制 。 如 果 读 者 要 用 到 联结 ,尤其 是 
在 非常 大 的 表 中 使 用 联结 时 ， 应 该 首先 通读 位 于 Hive 主 页 的 文档 。 



























































, 我 们 不 是 要 批判 Hive。 联结 工具 的 功能 非常 强大 ,但 公正 地 说 ,与 其 他 类 型 
的 SQL 查询 操作 相 比 ,编写 糟糕 的 联结 或 者 忽视 了 某 些 关键 约束 条 件 的 联结 会 更 
多 地 导致 关系 数据 库 中止 运 行 。 


一 展 身手 : 使 用 正则 表达 式 改 进 联 结 
除了 刚才 用 到 的 字符 串 函 数 之 外 ，Hive 还 提供 了 类 似 RLIKE 和 REGEXP_EXTRACT 的 函数 ， 
这 些 函 数 支 持 在 Hive 中 使 用 类 似 Java 中 的 正则 表达 式 。 重 写 上 例 中 的 联结 语句 ,使 用 正则 表达 
式 进 行 更 准确 、 更 优美 的 联结 操作 。 








Hive 和 SQL 祝 图 

Hive 还 支持 另 一 个 功能 强大 的 SQL 特性 一 一 视图 。 在 用 户 通过 SELEcT 语 句 指定 逻辑 表 (不 
是 静态 表 ) 的 内 容 的 时 候 , 视图 特别 有 用 , 后续 的 查询 语句 就 可 针对 这 个 包含 基础 数据 的 动态 视 
图 (这 也 是 视图 一 词 的 由 来 ) 运行 。 
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8.11 实践 环节 : 使 用 视图 


我 们 可 以 使 用 视图 隐藏 相关 的 查询 复杂 性 ,例如 上 例 中 执行 的 联结 操作 的 复杂 性 。 接 下 来 ， 
我 们 创建 视图 实现 该 功能 。 


(1) 把 下 列 语句 保存 为 view.hql 脚本 。 


CREATE VIEW IF NOT EXISTS usa sightings (sighted, reported, 
shape, state) 

AS select tíi.sighted, til.reported, t1.shape, t2.full, name 

FROM ufodata t1 JOIN states t2 

ON (LOWER(t2.abbreviation) = LOWER(substr( ti.sighting location, 
(LENGTH(tl.sighting location)-1)))) ; 


(2) 执行 view.hql 脚本 。 
$ hive -f view.hql 
脚本 的 运行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1ib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history file-/tmp/hadoop/hive job log. 

hadoop 201203040557 1017700649.txt 

OK 

Time taken: 5.135 seconds 


(3) 再 次 执行 view.hql 脚本 。 
$ hive -f view.hqgl 
脚本 的 运行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1ib/hive-common-0.8.1.jar!/hive-1log4j.properties 

Hive history file-/tmp/hadoop/hive job log 

hadoop 201203040557 851275946.txt 

OK 

Time taken: 4.828 seconds 


(4) 针对 该 视图 执行 一 个 测试 查询 。 


$ hive -e "select count(state) from usa sightings where state = 
'California'" 


上 述 查询 语句 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j .properties 

Hive history file-/tmp/hadoop/hive job log 

hadoop 201203040558 1729315866.txt 
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Total MapReduce jobs = 2 
Launching Job 1 out of 2 


2012-03-04 05:58:12,991 Stage-1 map = 


0%, 


reduce = 0% 


2012-03-04 05:58:16,021 Stage-1 map 50%, reduce = 0% 
2012-03-04 05:58:18,046 Stage-1 map 100%, reduce = 0% 
2012-03-04 05:58:24,092 Stage-1 map 100%, reduce = 100% 
Ended Job = job_201203040432_0027 
Launching Job 2 out of 2 
2012-03-04 05:58:33,650 Stage-2 map 0%, reduce = 0% 
2012-03-04 05:58:36,673 Stage-2 map 100%, reduce = 0% 
2012-03-04 05:58:45,730 Stage-2 map 100%, reduce = 100% 
Ended Job = job_201203040432_0028 
MapReduce Jobs Launched: 
Job 0: Map: 2 Reduce: 1 HDFS Read: 75416863 HDFS Write: 116 
SUCESS 
Job 1: Map: 1 Reduce: 1 HDFS Read: 304 HDFS Write: 5 SUCESS 
Total MapReduce CPU Time Spent: 0 msec. 
OK 
7599 
Time taken: 47.03 seconds 

(5) 删除 视图 。 


$ hive -e "drop view usa sightings" 
该 命令 的 执行 结果 如 下 所 示 。 


OK 


Time taken: 5.298 seconds 


原理 分 析 


ur 


首先 ， 我 们 使 用 CREATE VIEW 语句 创建 了 一 个 视 





主要 区 别 : 














图 。 它 与 CREATE TABLE 类 似 , 但 有 两 个 


a 列 定 义 中 仅 包 括 列 名 ， 相 关 查 询 会 确定 各 列 的 数据 类 型 ; 
O 通过 As 子 句 中 指定 的 SELECT 语句 生成 视图 。 


我 们 使 用 上 例 中 用 到 的 联结 语句 生成 视图 , 因此 , 实际 上 , 在 创建 表 的 过 程 中 已 完成 地 点 字 


段 向 州 名 全 称 的 转换 ， 而 没有 直接 要 求 用 户 执行 这 个 标准 化 过 程 。 








可 选 的 IF NOT EXISTS 子 句 (该 子 句 也 可 用 于 CREATE TABLE 语 句 ) 意味 着 ， 如 果 该 视图 














已 经 存在 的 话 ，Hive 会 忽视 CREATE VIEW 语 句 。 如 果 不 使 用 这 个 子 句 ， 重 复 创建 相同 的 视图 会 

















引发 错误 ， 这 并 不 总 是 我 们 想 执 行 的 操作 。 








218 * 83 Hive: 数据 的 关系 视图 








接着 ， 我 们 执行 了 两 次 该 脚本 来 创建 视图 ， 同 时 也 验证 了 使 用 IF wor EXISTS 子 句 可 以 防 
范 某 些 错误 ， 这 正 是 我 们 所 希望 的 。 


成 功 创建 视图 之 后 , 我 们 接 下 来 对 它 执 行 一 次 查询 操作 。 本 例 中 , 我 们 仅 统计 了 发 生 在 加 利 
福 尼 亚 州 的 UFO 目 击 事件 次 数 。 上 例 中 用 于 生成 MapReduce 作 业 的 那么 多 Hive 语 句 现 在 变 成 了 一 
行 语句 ， 针 对 该 视图 的 查询 需要 两 个 链 式 MapReduce 人 作业。 认证 分 析 上 述 查 询 语句 和 视图 定义 ， 
就 会 发 现 并 没什么 值得 惊奇 的 。 不 难 想 象 ， 上 述 视图 是 通过 第 一 个 MapReduce 作 业 实 现 的 , 它 的 
输出 作为 下 个 统计 UFO 目 击 事件 总 数 的 查询 语句 的 输入 , 该 查询 语言 的 效果 与 第 二 个 MapReduce 
作业 相同 。 因 此 ， 读 者 会 发 现 ， 这 个 两 阶段 的 作业 的 执行 时 间 要 大 于 之 前 任何 查询 的 执行 时 间 。 


实际 上 ，Hive 的 智能 程度 远 高 于 此 。 如 果 视 图 创建 语句 中 可 以 包含 外 部 查询 的 话 ，Hive 只 会 
生成 并 运行 一 个 MapReduce 作 业 。 由 于 手工 开发 一 系列 协同 操作 的 MapReduce 作 业 需 要 耗费 时 间 ， 
而 Hive 的 一 个 巨大 优势 就 在 于 它 节 省 了 这 些 开发 时 间 。 尽 管用 户 编写 的 MapReduce 作 业 的 运行 效 
率 可 能 更 高 ，Hive 可 以 在 早期 帮助 用 户 判 定 哪 个 作业 是 有 用 的 。 通 过 运行 一 个 效率 不 高 的 Hive 查 
询 就 可 以 判定 某 个 想法 是 否 与 预想 的 一 致 ， 而 读者 耗费 一 天 时 间 开 发 MapReduce 作 业 最 终 无 非得 
到 相同 结论 ， 我 们 认为 第 一 个 方案 稍 好 一 些 。 


我 们 曾经 提 到 过 ， 视 图 会 掩盖 SQL 语句 的 复杂 性 ， 这 通常 意味 着 执行 视图 本 来 就 很 费时 间 。 
对 于 大 规模 生产 工作 来 说 ， 读 者 不 得 不 优化 SQL 语句 ， 有 时 可 能 需要 彻底 放弃 使 用 视图 。 

在 查询 执行 结束 之 后 ， 我 们 通过 DROP VIEWw 语 句 删 掉 了 视图 ， 这 再 次 说 明 HiveQL 和 SQL 在 
处 理 表 和 视图 时 的 相似 性 。 


























































































































处 理 Hive 中 的 畸形 数据 


细心 的 读者 可 能 已 经 发 现 ,上 例 中 通过 查询 得 出 的 加 利 福 尼 亚 州 发 生 的 UFO 目 击 事件 总 数 与 
第 4 章 的 结果 不 一 致 。 这 是 为 什么 呢 ? 


回想 一 下 , 在 第 4 章 运行 Hadoop Streaming 或 Java MapReduce 之 前 , 我们 通过 某 种 方法 略 去 了 
输入 行 中 的 畸形 数据 。 之 后 在 处 理 数 据 时 , 我 们 使 用 了 更 为 精确 的 正则 表达 式 从 地 点 字段 提取 双 
字符 形式 的 州 名 缩写 。 但 是 在 使 用 Hive 执 行 相同 任务 时 ,我 们 没有 预 处 理 数 据 ， 同 时 采用 的 提取 
州 名 缩写 的 方法 也 较为 粗糙 。 

对 于 后 者 , 我 们 之 前 也 曾经 提 到 ，Hive 支 持 正则 表达 式 ， 可 以 使 用 它 来 更 精细 地 提取 州 名 缩 
写 。 而 对 前 者 而 言 ， 我 们 充其量 被 迫 在 许 多 查询 语句 中 加 入 WHERE 子 句 进 行 复杂 的 验证 。 

与 上 述 解 决 方案 不 同 , 常见 的 模式 是 在 数据 导入 Hive 之 前 进行 数据 预 处 理 。 例如 , 在 本 例 中 ， 
我 们 可 以 运行 一 个 MapReduce 作 业 去 掉 输 入 文件 中 的 所 有 上 畸形 记录 ， 并 运行 男 一 个 MapReduce 作 
业 提 前 完成 地 点 字段 的 标准 化 。 
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一 展 身手 : 实现 上 述 方案 


编写 一 两 个 MapReduce 作 业 对 输入 数据 进行 预 处 理 , 生成 一 个 经 过 净化 的 更 适合 直接 导入 
Hive 的 输入 文件 。 然 后 编写 一 个 脚本 执行 上 述 作 业 ， 创 建 一 个 Hive 表 ， 并 把 新 文件 导入 这 个 表 。 
通过 上 述 过 程 你 会 发 现 ， 使 用 脚本 把 Hadoop 和 Hive 整 合 到 一 起 并 不 困难 ， 但 其 功能 却 非常 强大 。 


8.12 ”实践 环节 : 导出 查询 结果 


刚才 ， 我 们 把 大 量 数据 导入 Hive 并 通过 查询 语句 从 中 提取 了 少量 数据 。 我 们 也 可 以 导出 大 
数据 集 ， 下 面 来 看 一 个 例子 。 
(1) 重新 创建 刚才 用 到 的 视图 。 
$ hive -f view.hql 
(2) 把 下 列 语句 保存 为 export .hql 文件 。 
INSERT OVERWRITE DIRECTORY '/tmp/out' 
SELECT reported, shape, state 


FROM usa sightings 
WHERE state - 'California' ; 





























(3) 执行 export .hal 脚本 。 
$ hive -f export.hql 
该 脚本 的 执行 结果 如 下 所 示 。 


2012-03-04 06:20:44,571 Stage-1 map = 100%, reduce = 100% 
Ended Job = job 201203040432 0029 

Moving data to: /tmp/out 

7599 Rows loaded to /tmp/out 

MapReduce Jobs Launched: 


Job 0: Map: 2 Reduce: 1 HDFS Read: 75416863 HDFS Write: 210901 
SUCESS 

Total MapReduce CPU Time Spent: 0 msec 

OK 


Time taken: 46.669 seconds 
(4) 查看 指定 的 输出 路 径 。 

$ hadoop fs -ls /tmp/out 

结果 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 210901 ... /tmp/out/000000 1 
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(5) 检查 输出 文件 。 
$ hadoop fs -cat /tmp/out/000000 1 | head 
结果 如 下 所 示 。 


20021014 light California 
20050224 other California 
20021001 egg California 

20030527 sphere California 
20050813 light California 
20040701 other California 
20031007 light California 


原理 分 析 


在 重复 使 用 上 个 视图 之 后 , 我 们 新 建 了 一 个 HiveQL 脚 本 , 该 脚本 使 用 了 INSERT OVERWRI 


























TE 


DIRECTORY 命 令 。 顾 名 思 义 ， 该 脚本 把 后 续 查 询 语句 的 执行 结果 写 人 指定 位 置 。OVERWRITE 修 








饰 语 也 是 可 选 的 ， 它 指明 是 否 要 删除 输出 目录 下 的 已 有 内 容 。 跟 在 INSERT 命 令 后 面 的 SELECT 语 
句 生 成 了 要 写 人 输出 位 置 的 数据 。 本 例 中 , 我 们 针对 基于 联结 创建 的 视图 执行 查询 操作 ， 它 说 明 




















了 查询 语句 是 如 此 的 复杂 。 




















另 一 个 可 选 的 修饰 语 是 CocaL, 如 果 需 要 把 输出 数据 写 入 运行 Hive 命 令 的 本 地 文件 系统 而 不 





是 HDFS 的 话 ， 用 户 就 可 选用 该 修饰 语 。 


在 运行 上 述 脚 本 的 时 候 ，MapReduce 作 业 输 出 的 绝 大 部 分 内 容 符 合 预期 , 但 多 了 一 行内 容 ， 





它 显示 的 是 已 向 指定 输出 位 置 导出 的 数据 总 行 数 。 























脚本 运行 完毕 之 后 , 我 们 转 到 输出 路 径 , 查看 结果 文件 是 否 保存 在 该 目录 下 , 并 检查 其 内 容 ， 








结果 与 预期 一 致 。 


因为 Hive 默 认 使 用 ASCII 码 0001 (\a0) 作 为 输入 文本 文件 的 分 隔 符 ， 所 以 它 在 
S 输出 文件 中 也 使 用 ASCII 码 0001("\a") 作 为 默认 分 隔 符 ， 如 上 例 所 示 。 




















前 ,我 们 需要 首先 解释 一 个 将 要 用 到 的 概念 。 


表 分 区 





用 户 还 可 以 使 用 INSERT 命 令 把 查询 结果 插入 表 中 ， 我 们 接 下 来 会 看 到 这 种 例子 。 但 在 此 之 


我 们 之 前 兽 提 到 过 , 在 一 段 较 长 的 时 间 内 ,人 们 对 糟糕 的 联结 语句 评价 很 差 . 因为 它 会 导致 


8.13 ”实践 环节 : 制作 UFO 目击 事件 分 区 表 221 














关系 数据 库 耗 费 大 量 时 间 去 完成 不 必要 的 工作 。 此 外 , 也 会 听 到 关于 查询 的 类 似 非 议 ， 因 为 查询 
操作 需要 执行 全 表 扫 描 ， 也 就 是 说 ， 要 逐一 访问 表 中 的 每 行 数据 ， 而 无 法 使 用 索引 直接 访问 感 兴 
趣 的 行 。 


对 于 存储 在 HDFS 并 映射 到 Hive 表 中 的 数据 ， 一 般 情 况 下 基本 上 都 依赖 于 全 表 扫 描 。 由 于 无 
法 将 数据 分 割 为 更 有 规律 的 、 可 直接 访问 用 户 感 兴趣 的 数据 子 集 的 结构 ，Hive 只 能 处 理 整个 数据 
集 。 对 大 约 为 70 MB 的 UFO 文 件 来 讲 ， 问 题 并 不 大 ， 因 为 Hive 只 用 了 几 十 秒 就 完成 了 整个 文件 的 
处 理 任务 。 但 是 ， 如 果 要 人 处 理 的 文件 规模 是 UFO 文 件 大 小 的 1000 倍 ， 情 况 又 会 如 何 呢 ? 


就 像 传统 关系 数据 库 一 样 , Hive 可 以 基于 虚拟 列 的 值 对 表 进 行 分 区 操作 , 这 些 虚拟 列 的 值 还 
会 用 于 后 续 的 查询 语句 。 


特别 是 ， 当 新 建 一 个 表 时 ， 用户 可 指定 一 列 或 多 列 作为 分 区 列 , 然后 在 把 数据 导入 表 时 ， 这 
些 列 的 值 将 决定 数据 会 被 写 入 哪个 分 区 。 


对 每 天 都 要 接收 大 量 数据 的 表 而 言 , 最 常用 的 分 区 策略 就 是 使 用 日 期 列 作为 分 区 列 。 之 后 我 
们 就 可 以 限制 查询 语句 只 处 理 某 个 特定 分 区 内 的 数据 。 Hive 在 后 台 把 每 个 分 区 的 数据 存储 到 自身 
路 径 和 文件 中 , 这样 ， 它 就 可 以 使 用 MapReduce 作 业 只 处 理 用 户 感 兴趣 的 数据 。 通 过 使 用 多 个 分 
区 列 , 用 户 可 以 创建 一 个 多 层 结构 ， 对 于 需要 频繁 查询 一 小 部 分 数据 的 大 表 而 言 , 很 有 必要 花 一 
些 时 间 选 择 一 个 最 佳 的 分 区 策略 。 


对 UFO 数 据 集 而 言 , 我 们 使 用 目击 事件 发 生 的 年 份 作为 分 区 值 , 但 需要 使 用 一 些 不 太 常 用 的 
特性 来 使 其 具有 可 操作 性 。 因 此 ， 在 介绍 完 这 部 分 内 容 之 后 ， 我 们 接 下 来 要 实现 一 些 分 区 。 























































































































8.13 ”实践 环节 : 制作 UFO 目击 事件 分 区 表 
接 下 来 ， 我 们 将 为 UFO 数据 新 建 一 个 表 ， 以 说 明 表 分 区 的 实用 性 。 


(1) 把 下 列 查询 语句 保存 到 createpartition.hgl 脚本 文件 。 











CREATE TABLE partufo(sighted string, reported string, sighting_ 
location string,shape string, duration string, description string) 
PARTITIONED BY (year string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY 'Nt' ; 


(2) 把 下 列 查询 语句 保存 到 insertpartition.hql 脚本 文件 。 





























SET hive.exec.dynamic.partition-true ; 
SET hive.exec.dynamic.partition.mode-nonstrict ; 


INSERT OVERWRITE TABLE partufo partition (year) 
SELECT sighted, reported, sighting location, shape, duration, 
description, 
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SUBSTR(TRIM(sighted), 1,4) FROM ufodata ; 
(3) 创建 分 区 表 。 

$ hive -f createpartition.hql 

上 述 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1ib/hive-common-0.8.1.jar!/hive-1log4j.properties 

Hive history file-/tmp/hadoop/hive job log 

hadoop 201203101838 17331656.txt 

OK 

Time taken: 4.754 seconds 


(4) 检查 刚 创建 的 表 。 


OK 

sighted string 

reported string 

sighting location string 
shape string 

duration string 
description string 

year string 

Time taken: 4.704 seconds 


(5) 在 表 中 插入 数据 。 


$ hive -f insertpartition.hql 
屏幕 上 将 会 显示 如 下 内 容 。 


Total MapReduce jobs = 2 


Ended Job - job 201203040432 0041 
Ended Job - 994255701, job is filtered out (removed at runtime). 
Moving data to: hdfs://head:9000/tmp/hive-hadoop/hive 2012-03- 
10 18-38-36 380 1188564613139061024/-ext-10000 
Loading data to table default.partufo partition (year-null) 
Loading partition (year-1977) 
Loading partition [(year-1880) 
Loading partition (year-1975) 
Loading partition (year-2007) 
Loading partition {year=1957} 


Table default.partufo stats: [num partitions: 100, num files: 100, 
num rows: 0, total size: 74751215, raw data size: 0] 

61393 Rows loaded to partufo 

OK 

Time taken: 46.285 seconds 


843 ”实践 环节 : 制作 UFO 目击 事件 分 区 表 223 





(6) 对 某 个 分 区 数据 执行 count 命令 。 


$ hive -e "select count(*)from partufo where year = !'1989'" 
其 结果 如 下 所 示 。 

OK 

249 


Time taken: 26.56 seconds 
(7) 在 未 分 区 表 上 执行 类 似 查 询 。 


$ hive -e "select count(*) from ufodata where sighted like 
'19899;'" 


其 结果 如 下 所 示 。 


OK 
249 
Time taken: 28.61 seconds 


(8) 列 出 保存 分 区 表 的 Hive 目录 下 的 所 有 文件 。 
$ Hadoop fs -ls /user/hive/warehouse/partufo 
其 结果 如 下 所 示 。 


Found 100 items 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-z0000 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1400 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1762 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1790 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1860 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1864 

drwxr-xr-x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1865 





原理 分 析 








本 例 中 ， 我 们 创建 了 两 个 HiveQL 脚 本 文件 。 第 一 个 脚本 新 建 了 一 个 分 区 表 。 可 以 看 出 ， 它 
与 前 面 提 到 的 CREATE TABLE 语 句 非 常 接近 ， 区 别 在 于 加 入 了 PARTITIONED BY. 


在 执行 完 第 一 个 脚本 之 后 ， 我 们 检查 了 表 结 构 ， 从 HiveQL 的 角度 来 看 ， 该 表 很 像 之 前 提 到 
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的 ufodata 表 ， 只 是 多 了 一 列 〈year )。 这 样 的 话 ， 当 在 wHERE 子 句 中 指定 条 件 时 ， 系 统 会 同样 对 
year 列 进行 处 理 ， 即 使 该 列 数据 并 不 存在 于 硬盘 数据 文件 中 。 


接 下 来 ， 我 们 执行 第 二 个 脚本 ， 它 把 数据 导入 到 分 区 表 中 。 这 里 需要 注意 几 点 。 


首先 ,我 们 看 到 INSERT 命令 可 以 用 于 表 操 作 ， 就 像 上 一 节 用 于 目录 操作 一 样 。INSERT 语 名 
彰 定 了 数据 的 目的 位 置 ， 跟 在 INSERT 后 面 的 SELECT 语句 从 已 有 表 或 视图 中 提取 所 需 数据 。 


本 节 使 用 的 分 区 方式 利用 了 Hive 的 一 个 新 功能 一 一 动态 分 区 。 在 大 多 数 情 况 下 , 分 区 子 句 应 
包含 明确 的 year 列 的 值 。 尽 管 这 种 方法 可 以 把 某 一 天 的 数据 导入 基于 日 期 的 分 区 表 ，, 但 它 不 适用 
于 本 例 中 的 数据 文件 类 型 , 因为 要 所 有 行 的 数据 插入 众多 分 区 表 中 。 通过 指定 分 区 列 而 不 设 定 具 
体 值 ，Hive 会 使 用 sELECT 语 句 返 回 的 year 列 的 值 自动 生成 分 区 名 。 


这 就 解释 了 为 什么 会 在 SELECT 语 名 末尾 出 现 一 个 奇怪 的 子 句 。 在 指明 ufodata 表 的 所 有 标 
准 列 之 后 ,我们 加 入 一 个 声明 ， 它 从 sighted 列 的 内 容 中 提取 前 4 个 字 节 。 请 记 住 ， 因 为 分 区 表 把 
year 分 区 列 视 为 ufodata 表 的 第 7 列 ,这 就 意味 着 我 们 要 把 每 行 中 sighted 字 符 串 中 的 年 度 值 指定 为 
year 列 的 值 。 因 此 ， 我 们 在 原来 每 行内 容 的 基础 上 加 上 目击 事件 发 生 的 年 份 ， 然 后 把 这 些 数据 插 
入 分 区 表 。 


为 了 证 明 上 述 脚 本 按照 预期 工作 , 我 们 接着 进行 了 两 次 查询 操作 。 其 中 一 次 查询 对 分 区 表 中 
1989 年 的 所 有 记录 进行 计数 , 另 一 次 查询 对 ufodata 表 中 以 “1989” 字符 串 开 头 的 记录 进行 计数 。 
我 们 兽 用 “1989” 字 符 串 动态 生成 分 区 表 。 


可 以 看 出 , 这 两 次 查询 的 结果 完全 一 致 , 这 就 证 实 了 我 们 的 分 区 策略 按照 预期 工作 。 我 们 还 
注意 到 , 对 分 区 表 的 查询 要 稍 快 于 对 非 分 区 表 的 查询 ,尽管 二 者 速度 差别 并 不 明显 。 这 可 能 是 
为 在 处 理 这 种 小 规模 数据 集 的 时 候 , MapReduce 的 启动 时 间 在 整个 作业 的 运行 时 间 中 占据 较 大 的 
比率 。 

最 后 ， 我 们 查看 了 Hive 为 分 区 表 存 储 数据 的 目录 ， 发 现 该 目录 下 共有 100 个 动态 生成 的 分 区 
表 。 今后 使 用 HiveQL 语 句 引 用 某 个 特定 分 区 ，Hive 会 执行 一 次 意义 非 几 的 优化 一 一 它 只 会 处 理 
在 相应 的 分 区 路 径 下 的 数据 。 












































8.13.1 分 桶 、 归 并 和 排序 


本 节 不 会 详细 介绍 这 些 内 容 , 但 Hive 系 统 并 非 只 能 采用 多 层 分 区 列 这 种 方法 对 数据 子 集 的 访 
问 过 程 进 行 优 化 。 在 一 个 分 区 中 ，Hive 提 供 了 进一步 将 数据 行 聚集 到 桶 中 的 方法 ， 它 通过 对 
CLUSTER BY 指定 的 列 使 用 哈 希 函数 实现 。 用 户 还 可 使 用 soRT BY 对 指定 列 进 行 排序 ， 经 过 排序 
的 数据 行 以 有 序 形式 存储 在 桶 中 。 例 如 , 我 们 可 以 基于 UFO 形 状 对 数据 分 桶 , 在 每 个 桶 中 按 目 击 
事件 发 生 的 日 期 进行 排序 。 
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读者 在 第 一 天 使 用 Hive 的 时 候 肯 定 不 会 用 到 这 些 功能 , 但 是 如 果 用 户 要 处 理 的 数据 集 越 来 越 
大 ， 采 用 这 种 优化 方式 可 以 显著 缩短 查询 的 处 理 时 间 。 





8.132 用户 自 定义 函数 


Hive 人 允许 用 户 在 HiveQL 执 行 的 过 程 中 直接 挂 接 自 定 义 代 码 。 这 个 功能 既 可 以 通过 新 增 库 函 
数 实现 , 也 可 以 通过 指定 类 似 于 Hadoop Streaming 的 Hive transform 实 现 。 本 节 我 们 将 学 习 用 户 自 
定义 函数 , 添加 自 定义 代码 可 能 是 用 户 在 学 习 Hive 的 早期 阶段 最 需要 的 功能 。Hive transform 是 一 
种 较为 复杂 的 机 制 ， 用 户 可 用 它 添加 在 Hive 运 行 时 调用 的 map 和 reduce 类 。 如 果 用 户 对 Hive 
transform 感 兴趣 的 话 ，Hive wiki 对 其 进行 了 详细 说 明 。 





N 


8.14 ”实践 环节 : 新 增 用 户 自 定义 函数 
接 下 来 ， 我 们 演示 如 何 使 用 UDEF 创建 并 调用 自 定 义 Java 代码 。 
(1) 把 以 下 代码 保存 为 City .java。 


package com.kycorsystems ; 


import java.util.regex.Matcher ; 

import java.util.regex.Pattern ; 

import org.apache.hadoop.hive.gl.exec.UDF ; 
import org.apache.hadoop.io.Text ; 


public class City extends UDF 
£ 
private static Pattern pattern = Pattern.compile( 
"[a-zA-z]*?[NN. ]*[a-zA-z]+?[\\, ][^a-zā-Z]") ; 


public Text evaluate( final Text str) 


{ 
Text result ; 
String location = str.toString().trim() ; 
Matcher matcher - pattern.matcher(location) ; 
if (matcher.find()) 
{ 
result = new Text ( location. 
substring (matcher.start(), matcher.end()-2)) ; 
} 
else 


{ 
result = new Text ("Unknown") ; 
} 


return result ; 
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(2) 编译 City.javao 


$ javac -cp hive/lib/hive-exec-0.8.1.jar:hadoop/hadoop-1.0.4-core. 
jar -d . City.java 


(3) 把 生成 的 类 文件 打包 到 JAR 文件 中 。 
$ jar cvf city.jar com 
上 述 命令 的 输出 如 下 所 示 。 
added manifest 
adding: com/ (in = 0) (out= O)(stored 0%) 
adding: com/kycorsystems/(in = 0) (out= 0) (stored 0%) 
adding: com/kycorsystems/City.class(in = 1101) (out= 647) (deflated 
41%) 
(4) 启动 交互 式 的 Hive shell, 
$ hive 
(5) 把 city.jar 添加 到 Hive classpath。 
hive> add jar city.jar; 


上 述 命令 的 执行 结果 如 下 所 示 : 


Added city.jar to class path 
Added resource: city.jar 


(6) 确认 city.jar 已 添加 到 Hive calsspath. 
hive» list jars; 
上 述 命令 的 执行 结果 如 下 所 示 。 


file:/opt/hive-0.8.1/1ib/hive-builtins-0.8.1.jar 
city.jar 


(7) 为 新 加 入 的 代码 重新 注册 一 个 函数 名 。 
hive> create temporary function city as 'com.kycorsystems.City' ; 
上 述 命令 的 执行 结果 如 下 所 示 。 


OK 
Time taken: 0.277 seconds 


(8) 使 用 新 函数 执行 一 次 查询 。 


hive> select city(sighting location), count(*) as total 
» from partufo 
» where year - '1999' 
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> group by city(sighting location) 
> having total > 15 ; 


上 述 命令 的 执行 结果 如 下 所 示 。 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 


OK 

Chicago 19 
Las Vegas 19 
Phoenix 19 
Portland 17 
San Diego 18 
Seattle 26 
Unknown 34 


Time taken: 29.055 seconds 


原理 分 析 


我 们 编写 的 Java 类 对 org .apache .hadoop.hive.exec.ql.UDF (User Defined Function ) 
基 类 进行 了 扩展 。 在 该 类 中 , 我 们 定义 了 一 个 返回 指定 地 点 字符 串 对 应 的 城市 名 的 函数 ， 而 地 点 
字符 串 的 模式 与 前 几 节 完全 相同 。 

实际 上 ，UDEF 并 不 会 限制 evaluate 函 数 的 参数 类 型 ， 相 反 ， 用 户 可 以 自由 添加 带 有 任意 类 型 
的 参数 和 返回 类 型 的 自 定义 函数 。Hive 使 用 Java 反 射 ( Reflection ) 技术 选择 正确 的 evaluate 函 数 。 
如 果 用 户 想 达到 更 精细 的 选择 ， 可 以 自行 开发 实现 UDFMethodResolver 接 口 的 实用 类 。 


上 例 中 用 到 的 正则 表达 式 有 点 难以 理解 , 我 们 只 是 想 要 提取 跟 在 州 名 缩写 后 面 的 城市 名 , 而 
该 正则 表达 式 却 如 此 复杂 。 然 而 ， 城 市 名 的 描述 方式 不 一 致 以 及 对 多 个 单词 组 成 的 名 字 的 处 理 ， 
造成 了 上 述 复杂 的 正则 表达 式 。 除 此 之 外 ,本 例 中 实现 的 类 较为 简单 。 


接着 ,我 们 编译 了 city.java 文 件 ,并 在 此 过 程 中 加 入 一 些 必需 的 Hive 和 Hadoop 的 JAR 文 件 。 












































请 记 住 ， 如 果 用 户 使 用 的 Hadoop 和 Hive 版 本 与 作者 的 版 本 不 同 ， 那 么 
S hive/lib/hive-exec-0.8.1.jar 和 hadoop/hadoop-1.0.4-core.jar 的 文件 名 可 能 会 有 区 别 。 


紧 接着 ,我 们 把 生成 的 类 文件 打包 成 JAR 文 件 ， 并 启动 Hive 交 互 式 shell。 


在 创建 JAR 文 件 之 后 ,我 们 需要 配置 Hive 使 用 该 文件 。 这 个 过 程 分 两 个 步骤 进行 。 首先, 我 
们 使 用 aqa jar 命 令 把 新 建 JAR 文 件 添加 到 Hive 使 用 的 classpath。 在 此 之 后 , 我 们 使 用 1ist jars 
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命令 确认 新 JAR 文 件 已 经 注册 到 系统 中 。 


添加 JAR 文 件 只 是 告诉 Hive 存 在 一 些 代码 ,并 没有 指明 我 们 希望 在 HiveQL 语 句 中 以 何 种 方式 
引用 这 些 函 数 。CREATE FUNCTION 完 成 的 就 是 这 个 工作 一 一 把 Java 类 与 函数 名 关联 起 来 ， 本 例 
中 ; CREATE FUNCTION 将 ci ty 国 数 与 提供 了 该 函数 实现 代码 的 com .kycorsystems. City% 


联 起 来 。 


在 把 JAR 文 件 添加 到 classpath ， 并 创建 了 city 函 数 之 后 ， 我 们 可 以 在 HiveQL 语 句 中 引用 
city ( ) PRACT o 









































接 下 来 ,我 们 运行 一 个 示例 查询 ， 以 说 明 city O 函数 工作 正常 。 回 想 一 下 ， 在 UFO 目 击 事 
件 分 区 表 中 ， 我 们 最 希望 在 哪个 地 方 最 常 出现 UFO ， 因 为 所 有 人 都 想 尽早 解 开 这 个 千年 之 这 。 

从 HiveQL 可 以 看 出 ， 我 们 可 以 像 使 用 其 他 函数 一 样 使 用 新 加 的 用 户 自 定义 函数 ， 而 且 通 常 
依靠 用 户 对 标准 Hive 函 数 库 的 熟悉 程度 , 来 区 分 哪些 函数 是 内 置 函 数 哪 些 函 数 是 用 户 自 定义 
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结果 显示 ， 美 国 西北 部 和 西南 部 集中 出 现 了 UFO 有 目击 事件 ，Chicago 则 是 个 例外 。 但 是 ， 结 
果 中 还 包含 一 些 无 法 确定 城市 名 的 数据 , 我 们 需要 进一步 分 析 其 原因 , 是 由 于 出 现 UFO 的 地 方 不 
在 美国 范围 内 还 是 正则 表达 式 不 够 完善 需要 进一步 改进 ? 














8.14.1 是 否 进行 预 处 理 














我 们 回想 一 下 之 前 提 到 的 一 个 话题 : 是 否 需 要 在 数据 导入 Hive 之 前 对 其 进行 预 处 理 , 去 除 畸 
形 数 据 。 从 上 个 例子 可 以 看 出 , 我 们 可 以 使 用 一 系列 用 户 自 定义 函数 在 进行 数据 处 理 的 过 程 中 完 
成 类 似 的 数据 清洗 工作 。 例 如 ， 我们 可 以 加 入 用 户 自 定义 的 state 和 country 函 数 ， 从 目击 事件 
发 生 的 地 点 字符 串 中 提取 或 推导 出 所 在 的 地 区 和 国家 。 很 难说 哪 种 方法 更 好 一 些 , 但 有 一 些 指 导 
原则 可 以 帮助 用 户 决 定 选用 哪 种 方法 。 


就 像 我 们 用 到 的 例子 一 样 , 如 果 由 于 种 种 原因 无 法 处 理 完整 的 地 点 字符 串 , 仅 能 从 中 提取 几 
个 明显 的 组 成 部 分 , 那么 可 能 有 必要 进行 数据 预 处 理 。 通 过 预 处 理 我 们 可 以 把 要 访问 的 列 标准 化 
为 更 可 预料 的 格式 ， 甚 至 把 它 分 成 独立 的 城市 /地 区 /国家 这 几 列 ， 而 不 必 每 次 都 执行 代价 较 大 的 


但 是 ， 如 果 在 HiveQL 中 经 常 要 用 到 某 一 列 的 原始 数据 ， 并 且 仅 在 特殊 情况 下 才 需 要 对 该 列 
数据 进行 处 理 ， 那 么 对 整个 数据 集 进 行 代价 很 大 的 预 处 理 就 没 多 大 好 处 。 


基于 上 述 原则 选用 对 自己 的 数据 和 工作 任务 最 有 利 的 处 理 方案 。 还 要 记 住 , 用 户 自 定义 函数 
不 仅仅 可 以 执行 这 种 文本 处 理 ， 它 们 可 以 封装 用 户 想 对 表 中 数据 执行 的 任何 操作 代码 。 
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8.14.2 ”Hive 和 Pig 的 对 比 


在 互联 网 上 搜索 关于 Hive 的 文章 时 ， 经 常会 发 现 人 们 往往 将 Hive 和 男 一 个 称 为 Pig 的 Apache 
项 目 进行 对 比 。 其 中 关于 它们 之 间 对 比 的 最 常见 问题 是 : 为 什么 二 者 都 存在 , 什么 时 候 该 选用 哪 
一 个 工具 ， 哪 个 工具 更 好 一 些 ， 以 及 使 用 哪 种 工具 显得 更 酶 一 些 。 


二 者 的 相似 之 处 在 于 ，Hive 提 供 了 一 种 类 似 SQL 语 言 的 接口 用 于 数据 处 理 ， 而 Pig 用 到 了 一 
种 叫做 Pig Latin 的 语言 定义 数据 流 流水 线 。 就 像 Hive 先 把 HiveQL 翻 译 成 MapReduce， 然 后 执行 
这 些 MapReduce 作 业 一 样 , Pig 会 执行 类 似 的 代码 生成 过 程 , 它 把 Pig Latin 脚 本 翻译 为 MapReduce 
代码 。 


二 者 的 最 大 区 别 在 于 对 作业 执行 方式 的 控制 粒度 。HiveQL 就 像 SQL 一 样 ， 它 只 定义 要 执行 
的 操作 ， 却 几乎 不 管 如 何 实 现 这 些 操作 。HiveQL 查 询 规划 器 负责 安排 HiveQL 命 令 的 执行 顺序 ， 
evaluate 函 数 的 执行 顺序 等 。Hive 在 运行 时 给 出 上 述 安排 ， 它 的 工作 模式 类 似 于 传统 关系 数据 库 
的 查询 规划 器 。Pig Latin 也 是 在 查询 规划 器 这 一 层 操作 数据 。 


使 用 Hive 和 Pig 都 避免 了 直接 编写 MapReduce 代 码 ， 只 不 过 两 种 方法 的 抽象 方式 不 尽 相 同 。 


到 底 是 选用 Hive 还 是 选用 Pig 最 终 取决 于 用 户 需 求 。 如 果 用 户 更 希望 使 用 熟悉 的 SQL 接 
口 操作 数据 , 它 可 以 使 Hadoop 中 的 数据 用 于 更 广泛 的 受众 , 那么 很 明显 应 当选 用 Hive。 但 如 果 有 
专门 人 员 以 数据 流水 线 的 方式 考虑 问题 ,并 需要 对 作业 运行 方式 进行 更 细 粒 度 的 控制 , 那么 可 能 
Pig 会 是 一 个 更 好 的 选择 。Hive 和 了 Pig 项 目 都 在 寻求 进一步 整合 ， 因 此 ， 关 于 它们 属于 竞争 关系 的 
错误 观念 会 得 到 改善 。 二 者 作为 相互 补充 的 技术 ， 都 可 降低 执行 MapReduce 作 业 的 门槛 。 



































8.14.3 ”未 提 到 的 内 容 


在 本 章 对 Hive 的 综述 中 ,我们 介绍 了 它 的 安装 和 配置 方法 ， 如 何 创建 表 并 在 表 中 插入 数据 ， 
怎样 创建 视图 以 及 如 何 实 现 联结 等 内 容 。 我 们 演示 了 如 何 把 数据 导入 、 导 出 Hive， 如 何 优 化 数据 
人 处理 过 程 ， 并 研究 了 几 个 Hive 内 置 函数 。 








实际 上 , 我 们 仅 学 习 了 Hive 的 皮毛 。 我 们 不 仅 没有 深入 研究 上 述 几 个 话题 和 相关 概念 ， 甚 至 
都 没有 接触 类 似 MetaStore 和 SerDe 的 内 容 。Hive 将 其 配置 和 元 数据 存储 在 MetaStore 中 ， 而 SerDe 
( serialize/deserialize ) 则 用 于 从 JSON 这 样 的 复杂 文件 格式 读 取 数据 。 


Hive 是 一 种 功能 非常 丰 寅 的 工具 ， 它 提供 了 很 多 复杂 而 又 强大 的 功能 。 如 果 读 者 认为 Hive 
对 自己 非常 有 用 , 那么 建议 读者 在 学 完 本 章 例 子 之 后 ， 花 时 间 阅 读 Hive 网 站 上 的 文档 。 你 还 会 在 
那里 发 现 用 户 邮 件 列表 ， 它 是 一 个 很 好 的 信息 来 源 ， 通 过 它 可 以 获得 别人 的 帮助 。 
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8.15 基于 Amazon Web Services 的 Hive 
弹性 MapReduce 对 Hive 的 支持 力度 很 大 ， 它 提供 了 一 些 特殊 机 制 ， 有 助 于 把 Hive 整 合 到 其 他 
AWS 服 务 中 。 





8.16 ”实践 环节 : 在 EMR 上 分 析 UFO 数据 
接 下 来 ， 我 们 将 通过 在 EMR 平台 上 分 析 UFO 数据 来 研究 如 何在 EMR 环境 中 使 用 Hive; 


(1) 登录 AWS 管理 控制 台 ， 其 地 址 为 http://aws.amazon.com/console。 

(2) EMR 上 的 每 个 Hive 作业 流 都 从 一 个 S3 桶 开始 运行 ,我 们 需要 选择 用 作 存 储 源 数据 的 桶 。 
选择 S3 以 查看 用 户 账户 创建 的 桶 列表 , 之 后 从 中 选择 一 个 桶 作为 作业 流 的 数据 来 源 。 在 
本 例 中 ， 我们 选用 名 为 garrytluse 的 桶 。 

(3) 通过 网 页 接口 在 garrytluse 桶 中 新 建 3 个 目录 ， 它 们 分 别 是 ufodata、ufoout 和 
ufologs。 桶 中 内 容 的 列表 如 下 图 所 示 : 


EB AWS Management Console - Windows Internet Explorer MEEI 
Gos [is neos le.sws.amazon.com e z & 4x] Pl- 
p D y 4- 

ETEEEEEEEÀ!S > i m 二 图 图 党 Ls E" 


Gerald Turkington v Help 了 














AWS Management Console » Amazon S3 
^r More. v 
WÜ Elastic Beanstalk | 53 EC2 VPC |CloudWatch Elastic MapReduce CloudFront CloudFormation RDS  ElastiCache SQS IAM SHS SES rab. 
x» Create Bucket ^ Actions ~ © Upload | (d Create Folder ^ Actions ~ Refresh © Properties | (9 Transfers Help 
garrytieu garrytluse 
Name Size Last Modified 
Ø ufodata 
加 ufologs 
号 ufoout 
ces LLC affil d Feedback pp P Terms of Use | An amazoncom. company 
X Internet av | 1005 ~ 





Done 


(4) 双击 并 打开 ufodata 目录 ， 在 该 目录 下 创建 两 个 名 为 ufo 和 states 的 子 目录 。 
(5) 把 下 列 代 码 保存 为 s3test.hql 脚本 ,， 点击 ufodata 目录 中 的 Upload 链接， 按照 提 示 
上 传 该 脚本 文件 。 


CREATE EXTERNAL TABLE IF NOT EXISTS ufodata(sighted string, 


reported string, sighting location string, 
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shape string, duration string, description string) 
ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

LOCATION '$(INPUT)/ufo' ; 




















CREATE EXTERNAL TABLE IF NOT EXISTS states(abbreviation string, 
Full name string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

LOCATION '$(INPUT)/states' ; 














XI 



































CREATE VIEW IF NOT EXISTS usa sightings (sighted, reported, shape, 
state) 
AS SELECT til.sighted, ti.reported, tl.shape, t2.full name 











FROM ufodata t1 JOIN states t2 
ON (LOWER(t2.abbreviation) = LOWER(SUBSTR( ti.sighting location, 
(LENGTH(ti.sighting location)-1)))) ; 

















CREATE EXTERNAL TABLE IF NOT EXISTS state results ( reported 
string, shape string, state string) 

ROW FORMAT DELIMITED 

FFIELDS TERMINATED BY 'Nt' LINES TERMINATED BY '\n' 

STORED AS TEXTFILE 
LOCATION '$(OUTPUT)/states' ; 









































INSERT OVERWRITE TABLE state results 
SELECT reported, shape, state 

FROM usa sightings 

WHERE state - 'California' ; 


Ufodata 目录 中 的 文件 列表 如 下 图 所 示 。 


[yv /5 Management Console - Windows Internet Explorer 
C3 EV [88 https:j/console.aws amazon.com E B sx Np ave Secure Search 2 


/3 
T p 
D ÍONELE LE! 图 党 i | d 
7 AWS Management Console 


T 
































AWS Management Console » Amazon S3 Gerald Turkington * | Help v 
TH More.. v 
astic Beanstalk S3 2 loudWatch | Elastic MapReduce CloudFront | CloudFormation lastiCache IAM | SN: 
RB un B k EC2 VPC —CloudWatch El RI CloudFi CloudF: RDS El Cache SQS AM SNS SES 
x» Create Bucket Actions * © upload | (d Create Folder ^ Actions ~ Refresh | Q9 Properties — (9 Transfers 3 Help 
4| garrytieu garrytluse > (7 ufodata 
Name Size Last Modified 
C s3test.hal 974 bytes Sat Mar 17 11:59:38 GMT+000 2012 
Ø states 
Ø ufo 


012, Amazon Web Services LLC or its affiliates. All rights reserved Feedback Support Privacy Policy Terms of Use An amazoncom. company 











Done i | IE internet Fa- [Hmo 77 
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(6) 双击 并 打开 states 目录 ， 并 把 之 前 曾 用 到 的 states .txt 文件 上 传 到 该 目录 。 该 目录 
中 的 文件 列表 如 下 图 所 示 。 


Æ AWS Management Console - Windows Internet Explorer 
El a «xl 


Qy * | https amazon.com; 
BGEZCERCEILILLLIEENCICLLLN a e U ALAS CNMCGES 
Yos a $ kä | Ew [+] 


AWS Management Console 








LX 
| 
) 
^ 
iC 
9 

G 
Æ 





Gerald Turkington v 


AWS Management Console » Amazon S3 





^r More. v 
WÜ Elastic Beanstalk | 53 EC2 VPC |CloudWatch Elastic MapReduce CloudFront CloudFormation RDS  ElastiCache SOS IAM SNS SES Ses 
x Create Bucket Actions v © Upload | (d Create Folder ^ Actions ~ Refresh © Properties | (9 Transfers Ə Help 
garrytieu garrytiuse > {i ufodata > {i states 
Name Size Last Modified 
司 states txt 654 bytes Sat Mar 17 01:57:26 GMT+000 2012 


Terms of Use An amazoncom. company 





&» Internet. a v |5100% ~ 


(7) 点 击 文件 列表 顶部 的 ufodata 部 件 ， 然 后 返回 该 目录 。 
(8) 双击 并 打开 ufo 目录， 把 之 前 曾 用 到 的 ufo.tsv 文件 上 传 到 该 目录 。 该 路 径 下 的 文件 
列表 如 下 图 所 示 。 


Æ AWS Management Console - Windows Internet Explorer [-is[x] 
B 4 Plz 


C3 5 [is neos amazon.com 
= 一 
加 wa 大 el «B 


AWS Management Console. 





Ta 
| 
) 
E 
C 
D 

E 





Gerald Turkington Y 








AWS Management Console » Amazon S3 
T More.. v 
Mf Elastic Beanstaik | 53 EC2 VPC |CloudWatch Elastic MapReduce CloudFront CloudFormation RDS ElastiCache SQS IAM SHS SES sA 
x» Create Bucket ^ Actions v © Upload | (d Create Folder ^ Actions ~ Refresh © Properties | (9 Transfers Help 
garrytieu garrytluse > {i ufodata > (J ufo 
Name Size Last Modified 
ufo.tsv 71.8 MB Sat Mar 17 02:00:31 GMT+000 2012 
2012, Am LLC A Feedback Support Privacy Policy Terms of Use An amazoncom. company 
© Internet. iv [100 - 


(9) 现在 ， 选 择 Elastic MapReduce 并 点 击 Create a New Job Flow。 然 后 选择 Run your own 


application, ， 并 选择 Hive Program， 如 下 图 所 示 。 
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(GG aws 's Management Console - Windows Internet Explorer 








78 AWS Management Console 





AWS Manaaement Console » Amazon Elastic ManReduce 
Create a New Job Flow 


DEFINE JOB FLOW 


name and selecting its type. If you don't already have an application 
available to help you get started. 


Creating a job flow to process your data using Amazon Elastic MapReduce is simple and quick. Let's begin by giving your job flow a 


Gerald Turkinaton w_ | Help v 


you'd like to run on Amazon Elastic MapReduce, samples are 





Job Flow Name*: [Hive UFO test 
low Nar 


Create a Job Flow*: © Run your own application 


C Run a sample application 








Continue 











https:lIconsole.aws.amazon.comjelasticmapreduce/home? 


(10) 点 击 Continue 按钮 ， 之 后 填写 Hive 作业 流 所 需 的 细节 信息 。 以 下 图 为 例 


桶 名 ( s3://URLs 的 第 一 部 分 ) 改 为 用 


A Hive Program enables you to create data processing 
applications using a familiar SQL-like language, called 
Hive QL, as an abstraction layer over the MapReduce 
programming model. A Hive job flow can be run in one of 
two modes: 


1. Hive Interactive mode will start a job flow in which 
you can interactively execute Hive queries. 

2. Hive Script mode will execute a script containing Hive 
queries that has been uploaded to Amazon 53. 


* Required 








9 Internet a v [R10% > 


户 刚 刚 设 置 的 桶 。 


(GG aws 's Management Console - Windows Internet Explorer 





ĀŪ AWS Management Console 





AWS Manaaement Console » Amazon Elastic MapReduce 
Create a New Job Flow 


SPECIFY PARAMETERS 
€ Execute a Hive Script 





Script Location*: |53://garrytluse/ufodata/s3test.hal 





Input Location: |53://garrytluse/ufodata 


T F z E 





Output Location: [s3://garryt1 use/ufoout 


The URL B 





Extra Args: 





C Start an Interactive Hive Session 


Back 
Continue 








© 2008 - 





Done 


Gerald Turkinoton w | Help v 
Cancel 区 x 
Hel 
t i H t » 
a 
company 
es rs] C) Internet a [* 109 - 


但 要 记 住 把 
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(11) 点 击 Continue 按钮 , 检查 要 使 用 的 主机 类 型 和 主机 数量 , 然后 再 次 点 击 Continue 按钮 。 
然后 填写 存放 日 志文 件 的 目录 名 ， 如 下 图 所 示 。 


{Æ AWS Management Console - Windows Internet Explorer [-i5[x] 
o v. [H8 https://console.aws amazon.com;elasticmap #5=New 3 z| 8 (alx AVG Se e e| 








I AW'S Management Console 


AWS Manaaement Console » Amazon Elastic MapReduce 
[f Create a New Job Flow 







ADVANCED OPTIONS 





Here you can select an EC2 key pair, configure your cluster to use VPC, set your job flow debugging options, and enter advanced 
job flow details such as whether it is a long running cluster. 


Amazon EC2 Key Pair: [Proceed without an EC2 Key Pair v] 
Use an existing Key Pair to SS 












Amazon YPC Subnet Id: [Proceed without a VPC Subnet ID v] 
ubnet t t ] t Cloud. Create a VPC 





Configure your logging options. Learn more. 












Amazon S3 Log Path [53://garrytluse/ufologs 
(Optional): 






Enable Debugging: C Yes © No 






Set advanced job flow options. 
Keep Alive C ves © No 







Continue ia 






"ERT[AdE T 


https:/jconsole.aws.amazon.comjelasticmapreduce/home?s >o FTFT TF TF T gne 


(12) Xx Continue 按钮 。 之 后 在 剩余 的 作业 创建 步骤 中 一 直 点 击 Continue 按钮 ， 因 为 用 户 
无 需 修 改 剩余 步骤 中 的 默认 设置 。 最 后 ， 局 动作 业 流 并 通过 管理 控制 台 查 看 其 进度 。 


(13) 一 旦 作业 成 功 完 成 ， 返 回 S3 并 双击 ufoout 目录 。 该 目录 下 应 该 有 一 个 states 目录 ， 
在 该 目录 中 有 一 个 名 为 0000000 的 文件 。 双 击 并 下 载 该 文件 ， 验 证 其 内 容 如 下 所 示 。 


20021014 light California 
20050224 other California 
20021001 egg California 
20030527 sphere California 


原理 分 析 


在 实际 执行 EMR 作 业 流 之 前 ， 我 们 需要 完成 一 些 设置 工作 。 首 先 ， 我 们 使 用 S3 的 网 页 接口 
为 作业 创建 目录 结构 。 我 们 创建 了 3 个 主 目 录 ， 分 别 用 于 存储 输入 数据 ， 写 入 作业 结果 ， 以 及 存 
储 EMR 在 执行 作业 流 时 产生 的 日 志 。 
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HiveQL 脚 本 中 包含 一 些 本 章 前 几 节 用 到 的 Hive 命 令 ， 本 例 中 对 它们 做 了 一 些 修 改 。 我 们 为 
UFO 目 击 事件 数据 和 州 名 创建 了 两 个 表 ， 并 创建 了 一 个 联结 这 两 个 表 的 视图 。 接 着 ， 我 们 创建 了 
一 个 没有 源 数据 的 新 表 , 并 通过 INSERT OVERWRITE TABLE 语 句 把 一 个 查询 的 结果 数据 插入 该 表 。 


该 脚本 的 特别 之 处 在 于 为 每 个 表 指定 LOCATION 子 句 的 方式 。 对 存储 输入 数据 的 表 而 言 ， 我 
们 使 用 相对 于 INPUT 变 量 的 路 径 ; 类似 地 ， 我 们 使 用 相对 于 ouTPUT 变 量 的 路 径 作为 存储 结果 数 
据 的 表 的 输出 位 置 。 


请 注意 ，EMR 中 的 Hive 希 望 表 数 据 的 位 置 是 一 个 路 径 而 非 文件 。 这 也 就 解释 了 之 前 我 们 为 
什么 要 为 每 个 表 都 创建 一 个 子 目 录 , 然后 把 特定 源 文件 上 传 到 相应 目录 中 ， 而 不 是 直接 指定 每 个 
表 要 用 的 数据 文件 的 路 径 。 


在 S3 桶 中 创建 了 必需 的 文件 和 目录 结构 之 后 , 我 们 转向 EMR 网 页 控制 台 , 并 开始 创建 作业 流 。 


在 指明 我 们 希望 使 用 自 有 Hive 程 序 之 后 ， 我 们 在 一 个 页 面 中 填 人 了 作业 流 需要 的 一 些 关 键 
数据 : 


口 HiveQL 脚 本 本 身 的 位 置 ; 
口 输入 数据 所 在 路 径 ; 
口 写 和 输出 数据 的 目录 。 


HiveQL 脚 本 的 自身 路 径 是 一 个 很 明确 的 路 径 ， 无 需 对 它 进行 任何 解释 。 但 是 ， 输 入 数据 路 
径 和 输出 数据 路 径 是 如 何 映射 为 Hive 脚 本 中 使 用 的 INPUT 和 ouUTPUT 变 量 的 ， 理 解 这 一 点 非常 

Hive 脚 本 使 用 INPUT 变 量 指 代 输入 路 径 ， 这 就 是 我 们 把 包含 UFO 目 击 事件 数据 的 路 径 写 为 
${INPUT} /ufo 的 原因 。 类 似 地 ，Hive 脚 本 使 用 ouTrPUT 变 量 指 代 输 出 路 径 。 

我 们 没有 对 默认 的 主机 设置 进行 任何 改动 ,选用 了 一 台 较 小 的 主 节 点 主机 和 两 台 较 小 的 核心 
节点 主机 。 在 下 一 个 页 面 中 ， 我 们 添加 了 作业 流 运行 过 程 中 产生 的 日 志 的 存储 位 置 。 

尽管 用 户 可 选择 是 否 输出 日 志 , 但 捕获 这 些 日 志 是 有 用 的 ,尤其 是 在 运行 新 脚本 的 早期 阶段 ， 
虽然 在 S3 服 务 中 存储 这 些 日 志 信 息 是 要 付费 的 。EMR 还 可 以 把 有 索引 的 日 志 数 据 写 人 另 一 个 
AWS 服 务 一 一 SimpleDB， 但 我 们 没有 演示 其 使 用 方式 。 

在 完成 作业 流 定 义 之 后 , 我 们 启动 该 作业 流 。 在 作业 流 成 功 执行 后 , 我 们 转向 S3 接 口 浏 览 输 
出 目录 ， 不 出 所 料 ， 该 目录 中 包含 着 作业 流 的 输出 结果 。 























































































































8.16.1 ”在 开发 过 程 中 使 用 交互 式 作业 流 
在 开发 用 于 EMR 的 新 Hive 脚 本 时 ， 上 节 讲 的 按 批 执行 作业 的 方式 不 太 合 适 。 通 常 在 作业 流 
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创建 和 执行 过 程 中 有 几 分 钟 的 延迟 ， 如 果 作 业 失 败 的 话 ， 会 浪费 EC2 实 例 几 个 小 时 的 开销 。 


与 上 例 中 选择 不 同 的 选项 创建 作业 流 来 运行 Hive 脚 本 不 同 ， 我 们 还 可 以 以 交互 式 模式 启动 
Hive 作 业 流 。 它 可 以 加 快 Hadoop 集 群 的 设置 ， 却 不 需要 脚本 。 你 可 以 通过 SSH 方 式 以 集群 用 户 的 
身份 登录 到 安装 有 Hive 的 主 节 点 。 在 这 样 的 环境 中 开发 脚本 更 有 效率 。 如 果 需 要 的 话 ， 把 作业 流 
脚本 设置 为 自动 执行 方式 。 














一 展 身手 : 使 用 交互 式 的 EMR 集 群 


在 EMR 中 启动 一 个 交互 式 的 Hive 作 业 流 。 你 会 用 到 已 在 EC2 中 注册 好 的 SSH 证 书 来 连接 到 
主 节点 。 直 接 在 主 节 点 上 运行 上 个 脚本 ， 记 得 要 为 脚本 提供 合适 的 参数 。 


8.16.2 与 其 他 AWS 产 品 的 集成 


在 本 地 安装 Hadoop/Hive 之 后 , 数据 的 存储 位 置 无 非 就 是 HDFS 或 者 本 地 文件 系统 。 从 前 几 市 
内 容 可 以 看 出 ，EMR 中 的 Hive 提 供 了 另外 一 种 选择 ， 它 支持 从 外 部 表 中 获取 数据 ， 例 如 S3 。 


男 一 种 AWS 服 务 也 有 类 似 的 功能 ， 它 就 是 DynamoDB ( 网 址 为 http://aws.amazon.com/ 
dynamodb )。 它 是 托管 在 云端 的 NoSQL 数 据 库 。 运 行 于 EMR 的 Hive 作 业 流 可 以 声明 使 用 外 部 表 ， 
既 可 以 从 DynamoDB 读 取 数 据 ， 也 可 以 将 其 作为 查询 结果 的 输出 位 置 。 


这 个 模型 功能 非常 强大 , 因为 在 这 种 模式 下 , 用 户 可 以 使 用 Hive 来 处 理 和 合并 多 个 数据 源 的 
数据 ， 而 从 某 个 系统 向 Hive 表 的 数据 映射 机 制 是 透明 的 。 另 外 ，Hive 还 可 以 借助 DynamoDB 把 数 
据 从 一 个 系统 迁移 到 另 一 个 系统 。 采 用 这 种 数据 存储 方案 的 主要 障碍 在 于 , 需要 频繁 地 将 存储 在 
HDFS 或 本 地 文件 系统 的 数据 转移 到 托管 的 云 存储 系统 中 。 















































8.17 小 结 








本 章 学习 了 Hive 的 相关 知识 , 用 过 关系 数据 库 的 读者 应 该 非常 熟悉 Hive 提 供 的 许多 工具 和 功 
能 。 由 于 避免 了 开发 MapReduce 程 序 ，Hive 能 够 使 更 多 的 人 感受 到 Hadoop 的 强大 之 处 。 


特别 是 , 我 们 下 载 并 安装 了 Hive, 了 解 到 它 是 一 个 把 HiveQL 语 言 转换 成 MapReduce 代 码 的 客 
户 端 程序 , 然后 再 把 MapReduce 程 序 提交 给 Hadoop 和 集群 。 我们 研究 了 Hive 创 建 表 并 针对 这 些 表 执 
行 查询 的 原理 。 我 们 观察 到 ，Hive 可 以 支持 多 种 基础 的 数据 文件 格式 和 数据 结构 ， 并 学 习 了 如 何 
修改 相应 的 设置 选项 。 







































































通过 本 草 学 习 ， 我 们 还 认识 到 ，Hive 表 在 很 大 程度 上 是 一 个 人 逻辑 概念 。 有 了 这 种 认识 之 后 ， 
所 有 针对 表 的 类 似 SQL 的 操作 事实 上 都 是 由 MapReduce 作 业 在 HDFS 文 件 上 完成 的 。 之 后 ,我们 
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学 习 了 如 何在 Hive 中 使 用 联结 和 视图 ， 以 及 如 何 对 表 进 行 分 区 以 辅助 高 效 查 询 操作 。 

我 们 使 用 Hive 把 查询 结果 写 人 HDFS 上 的 文件 , 并 学 习 了 如 何在 弹性 MapReduce 中 使 用 Hive， 
怎样 使 用 交互 式 作 业 流 开发 新 的 Hive 程 序 ， 并 在 批 运行 模式 中 自动 运行 这 些 程序 。 

我 们 在 本 书 中 曾 多 次 提 到 ，Hive 看 上 去 是 个 关系 数据 库 ， 其 实 并 非 如 此 。 但 是 ,在 很 多 情况 
F, 读者 需要 整合 某 些 现 有 的 关系 数据 库 。 下 一 章 将 会 介绍 如 何 实现 这 种 整合 ， 以 及 如 何 实现 在 
不 同类 型 数据 源 之 间 移 动 数据 。 
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从 上 一 章 可 以 看 出 ，Hive 的 功能 非常 强大 。 用 户 可 以 把 存储 在 Hadoop 中 
的 数据 近似 看 做 关系 数据 库 。 然 而 ， 它 终究 不 是 一 个 真正 的 关系 数据 库 。 它 
没有 完全 实现 SQL 标准 , 它 的 性 能 和 规模 特征 与 传统 关系 数据 库 区 别 很 大 ( 并 
不 是 说 哪个 更 好 一 些 )。 

很 多 情况 下 ， 读 者 会 发 现 Hadoop 集 群 需要 与 关系 数据 库 配合 完成 某 些 数 
据 处 理 任务 。 通 常 ， 业 务 流 需要 把 数据 从 一 个 存储 系统 移动 到 另 一 个 存储 系 
统 。 本 章 ， 我 们 将 研究 如 何在 不 同 存储 系统 之 间 转 移 数据 。 





本 章 包括 以 下 内 容 : 


a 介绍 一 些 常见 的 Hadoop/RDBMS 使 用 案例 ; 

口 学 习 如 何 将 数据 从 RDBMS 移 至 HDFS 和 Hive; 
口 最 好 使 用 Sqoop 解 决 上 述 问题 ; 

口 使 用 Sqoop 将 Hadoop 数 据 导出 至 RDBMS ; 

a 最 后 讨论 如 何在 AWS 中 使 用 Sqoop。 





9.1 ”常见 数据 路 径 


早 在 第 1 章 我 们 就 曾 讨论 过 在 什么 情况 下 使 用 Hadoop ， 在 什么 情况 下 使 用 传统 关系 数据 库 。 
和 当时 的 解释 一 样 , 我 们 认为 要 根据 手头 的 具体 任务 选择 合适 的 工具 , 甚至 还 有 可 能 要 同时 用 到 
多 种 技术 。 为 曾 明 这 一 观点 ， 我 们 来 看 一 些 具体 的 例子 。 





9.1.1 Hadoop 用 于 存储 档案 


把 RDBMS 用 作 主 要 的 数据 储存 库 时 ， 经 常会 遇 到 数据 规模 和 数据 保留 方面 的 问题 。 随 着 新 
数据 量 的 增长 ， 该 如 何 处 理 那些 价值 不 太 大 的 老 旧 数据 呢 ? 
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习惯 上 ， 有 两 种 主要 的 解决 方案 。 


口 对 RDBMS 进 行 分 区 ， 这 样 会 提高 较 新 数据 的 访问 性 能 。 有 时 ， 可 以 使 用 速度 较 慢 、 成 本 
较 低 的 存储 系统 储存 老 旧 数据 。 
口 使 用 磁带 或 其 他 线 下 存储 设备 存储 老 旧 数据 。 


这 是 两 种 有 效 的 解决 办 法 。 到底 选用 哪 种 方法 取决 于 是 否 需要 实时 访问 这 些 老 旧 数 据 。 这 两 
种 方法 都 比较 极端 : 第 一 种 方法 保证 了 访问 速度 的 最 大 化 , 却 提高 了 系统 复杂 性 并 增加 了 设备 成 
本 ; 第 二 种 方法 虽然 降低 了 成 本 但 无 法 实时 访问 数据 。 


最 近 出 现 了 一 种 新 的 解决 方案 : 用 关系 数据 库存 储 最 新 数据 ， 同 时 使 用 Hadoop 存 储 老 数 据 。 
采用 这 种 方案 后 ， 数 据 要 么 以 结构 化 文件 的 形式 存储 在 HDFS 上 ， 要 人 么 存储 在 Hive 并 保留 了 
RDBMS 接 口 。 这 是 一 种 两 全 其 美的 好 办 法 ， 用 户 既 可 以 通过 高 速 、 低 延迟 的 SQL 查询 访问 数据 
规模 较 小 的 新 数据 , 也 可 以 通过 Hadoop 访 问 数据 规模 较 大 的 存档 文件 。 因 此 , 无 论 用 户 通过 哪 种 
方式 , 都 能 访问 目标 数据 。 既 支持 新 数据 查询 ， 也 支持 存档 数据 查询 的 存储 平台 尤其 需要 采用 这 
种 方案 。 


由 于 Hadoop 的 扩展 性 极 强 ， 这 种 模型 具有 很 好 的 成 长 潜力 。 有 了 它 ， 我 们 可 以 持续 不 断 地 
增加 存档 数据 的 容量 ， 但 同时 也 能 够 对 其 进行 分 析 。 



















































































9.1.2 ”使 用 Hadoop 进 行 数 据 预 处理 


在 讨论 Hive 的 时 候 我 们 曾 多 次 强调 ,有些 情况 下 运行 预 处 理 作 业 或 以 其 他 方式 净化 数据 是 非 
常 有 用 的 。 但 不 幸 的 是 ,在 大 多 数 大 数据 处 理 案例 中 , 大量 数 据 来 自 于 多 个 数据 源 ， 这 就 意味 着 
这 些 数据 中 间 必 然 存在 错误 数据 。 尽 管 大 多 数 MapReduce 作 业 只 会 处 理 其 中 部 分 数据 ,但 我 们 仍 
希望 找 出 全 部 的 不 完整 数据 或 错误 数据 。 最 好 先 预 处 理 数 据 ， 然 后 再 把 它们 存 人 Hive, 传统 的 关 
系数 据 库 同 样 如 此 。 


Hadoop 非 常 适合 完成 这 个 任务 ， 它 从 多 个 数据 源 获取 数据 ， 进 行 必要 的 转换 之 后 把 它们 合 
并 ， 然 后 在 数据 插入 关系 数据 库 之 前 完成 数据 净化 工作 。 








» 





9.1.3 ”使 用 Hadoop 作 为 数据 输入 工具 


Hadoop 不 仅 能 净化 数据 ， 使 其 更 适合 导入 关系 数据 库 。 而 且 ， 它 还 可 以 用 于 生成 其 他 数据 
集 或 数据 视图 ， 然 后 在 关系 数据 库 中 使 用 这 些 结果 。 举 个 例子 ,常见 的 应 用 场景 是 , 我 们 不 仅 希 
望 显示 某 个 账号 的 主要 数据 , 也 想 同 时 显示 根据 账号 使 用 情况 生成 的 二 级 数据 。 其 实 就 是 对 前 几 
个 月 不 同 消费 类 型 的 交易 进行 汇总 .这 些 数据 存储 在 Hadoop 中 ,基于 这 些 数据 可 以 生成 实际 汇总 ， 
把 它们 也 存储 在 数据 库 中 以 便 快 速 查询 。 
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9.1.4 数据 循环 


实际 情况 往往 要 比 这 些 单一 的 场景 复杂 得 多 。 通 常 ，Hadoop 和 关系 数据 库 之 间 的 数据 流 是 






































环形 或 弧 形 的 ， 而 不 是 简单 的 从 Hadoop 到 关系 数据 库 或 从 关系 数据 库 到 Hadoop 的 线性 路 径 。 例 














如 , 数据 可 能 先 经 过 Hadoop 的 预 处 理 , 然后 存储 在 关系 数据 库 中 , 接着 又 频频 与 某 些 运 算 的 结 


聚合 ， 再 把 相应 的 结 











存 信 数据库。 某 些 不 太 常 用 的 数据 符合 一 定 的 标准 之 后 , 用 户 就 会 从 数据 


库 中 删除 这 些 数据 ， 但 还 要 在 Hadoop 上 存档 。 


先 不 考虑 这 些 复 杂 的 情况 。 在 把 Hadoop 集 成 到 已 有 IT 系统 的 时 候 ， 保 证 数据 在 Hadoop 和 关 








系数 据 库 之 间 的 流动 能 力 至 关 重 要 。 接 下 来 ,我们 将 学 习 有 具体 的 实现 方法 。 


9.2 配置 MySQL 


在 向 关系 数据 库 进 行 读 写 操 作 之 前 ,我 们 首先 需要 一 个 正在 运行 的 关系 数据 库 。 由 于 
MySQL 数 据 库 可 免费 使 用 且 应 用 范围 极 广 ， 得 到 了 许多 开发 者 的 青睐 ， 因 此 本 章 使 用 MySQL 
数据 库 作为 关系 数据 库 的 代表 。 当 然 ， 读 者 可 以 选用 JDBC 驱 动 支持 的 任何 关系 数据 库 ， 但 如 








9.3 ”实践 环 市; 








果 读 考 选 用 了 MySQL 之 外 的 其 他 关系 数据 库 ， 在 与 数据 库 服务 器 建立 连接 时 需要 作出 相应 的 


安装 并 设置 MySQL 


本 节 将 学 习 如 何 安装 并 配置 MySQL， 赋 了 予 用户 基 本 的 数据 库 操作 权限 和 访问 权限 。 


(1) 在 Ubuntu 主机 上 ， 使 用 apt-get 命令 安装 MySQL. 


$ apt-get update 
$ apt-get install mysql-server 


(2) 根据 提示 ， 为 root 用 户 设置 一 个 合适 的 密码 。 


(3) 安装 完成 后 ， 连 接 到 MySQL 服务 器 。 


$ mysql -h localhost -u root -p 


(4) 按照 提示 ， 输 入 root 密码 。 


Welcome to the MySQL monitor. Commands end with ; or Vg. 
Your MySQL connection id is 40 


Mysql» 
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(5) 新 建 一 个 数据 库 ， 用 于 演示 本 章 讲 到 的 例子 。 
Mysql» create database hadooptest; 
上 述 命令 的 执行 结果 如 下 。 
Query OK, 1 row affected (0.00 sec) 
(6) 新 建 一 个 用 户 账 户 ， 并 赋予 该 用 户 全 部 数据 库 权 限 。 
Mysql» grant all on hadooptest.* to 'hadoopuser'Q'*;' identified 
by 'password'; 
上 述 命令 的 执行 结果 如 下 。 
Query OK，0 rows affected (0.01 sec) 
(7) 重新 加 载 用 户 权 限 ， 使 上 一 步 的 配置 生效 。 
Mysql» flush privileges; 
上 述 命令 的 执行 结果 如 下 。 
Query OK，0 rows affected (0.01 sec) 
(8) 退出 root 用 户 账 号 。 
mysql» quit; 
上 述 命令 的 执行 结果 如 下 : 
Bye 
(9) 使 用 hadoopuser 账号 登录 ， 根 据 提 示 输 入 密码 。 
$ mysql -u hadoopuser -p 
(10) 切换 到 新 建 数据 库 hadooptest。 
mysql» use hadooptest; 
(11) 创建 一 个 测试 表 ， 然 后 删 掉 该 表 以 验证 该 用 户 具备 确实 相应 的 操作 权限 ， 随 后 退出 。 


mysql> create table tabletest(id int); 
mysql» drop table tabletest; 
mysql» quit; 
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Ele Edit View Terminal Help 








igarryGvm16:-$ mysql -u hadoopuser -p |i 
Enter password: 

WeLcome to the MySQL monitor. Commands end with ; or \g. 

Your MySQL connection id is 44 

Server version: 5.1.66-rell4.1 (Percona Server (GPL), 14.1, Revision 495) 


Copyright (c) 2000, 2012, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Qyacle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


[Type "help;' or 'Ah' for help. Type '\c' to clear the current input statement. 


mysql> use hadooptest 
Reading table information for completion of table and column names 
You can turn off this feature to get a quicker startup with -A 


Database changed 
mysql> create table tabletest(id int) ; 
Query OK, © rows affected (0.01 sec) 


mysql> drop table tabletest; 
Query OK, © rows affected (0.00 sec) 


mysql> quit; 
Bye 
lgarry(vm16:-$ || 











原理 分 析 


多 亏 apt 软 件 包 管 理 需 的 神奇 作用 , 我 们 可 以 非常 轻松 地 安装 像 MySQL 这 样 的 复杂 软件 。 我 
们 使 用 的 是 在 Linux 系 统 上 安装 软件 的 标准 流程 。 在 Ubuntu ( 以 及 许多 其 他 Linux 版 本 ) 系统 上 ， 
请 求 下 载 MySQL 的 服务 器 软件 包 会 同时 把 它 所 依赖 的 所 有 软件 包 都 下 载 到 客户 端 主机 ， 包 括 





MySQL 的 客户 端 安 装 包 。 


在 安装 过 程 中 ， 系 统 会 提示 用 户 输入 数据 库 的 root 口 令 。 即 使 该 数据 库 仅 作 实验 之 用 ， 用 户 
不 会 在 该 数据 库 中 存储 任何 有 价值 的 数据 ， 仍 有 必要 为 root 用 户 设置 一 个 强 口令 。 为 root 用 户 设 


置 弱 口 令 的 习惯 非常 糟糕 ， 我 们 坚决 反对 这 种 行为 。 


安装 好 MySQL 之 后 ， 我 们 使 用 mysql 命 令 行 工具 连接 到 数据 库 。 该 命令 有 多 个 选项 ,但 我 





们 仅 会 用 到 以 下 几 个 。 





口 -h: 该 选项 用 于 指定 要 连接 的 数据 库 的 主机 名 ( 缺 省 状态 下 指 的 是 本 地 主机 ); 
口 -u: 该 选项 用 于 指定 使 用 哪个 用 户 账号 连接 数据 库 ( 默认 情况 下 指 的 是 当前 Linux 用 户 ); 
口 -p: 该 选项 用 于 指定 用 户口 令 。 
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MySQL 支 持 多 数据 库 ， 每 个 数据 库 都 是 一 组 表 的 集合 ， 同 时 每 个 表 都 必须 从 属于 某 个 数据 
库 。MySQL 已 经 内 置 了 几 个 数据 库 ， 但 我 们 要 新 建 一 个 测试 用 的 数据 库 ， 因 此 我 们 使 用 CREATE 
DATABASE 语 句 新 建 了 一 个 名 为 hadooptest 的 数据 库 。 


除非 用 户 被 明确 赋予 执行 所 需 操 作 的 权限 ， 否 则 MySQL 不 会 执行 任何 数据 库 操作 。 我 们 不 
想 以 root 用 户 的 身份 完成 所 有 任务 ( 使 用 root 权 限 进行 所 有 数据 库 操 作 不 仅 是 一 个 坏 习 惯 ， 同 时 
也 存在 巨大 的 风险 ,因为 root 用 户 可 以 修改 或 删除 任何 数据 ), 因此 我 们 使 用 GRANT 语句 新 建 了 一 
个 名 为 hadoopuser 的 用 户 。 


我 们 使 用 GRANT 语句 完成 以 下 3 个 任务 : 


口 创建 hadoopuser 账 号 ; 
O 为 hadoopuser 用 户 设置 口令 。 虽然 本 例 中 我 们 使 用 password 作 为 该 用 户 的 口令 , 但 用 
户 千 万 不 要 这 样 做 ， 而 应 当选 用 容易 记 住 的 字符 组 合 ; 
O 赋予 hadoopuser 用 户 全 部 权限 ， 使 其 可 以 对 nadooptest 数 据 库 及 组 成 该 数据 库 的 所 有 
数据 表 执行 任何 操作 。 

我 们 通过 FLUSH PRIVILEGES 命 令 确保 这 些 设置 生效 ,然后 退出 root 账 号 ， 并 以 hadoopuser 
的 身份 连接 到 服务 器 ， 查 看 数据 库 工作 是 否 正常 。 

本 例 中 的 UsE 语 句 有 些 多 余 。 以 后 , 我 们 可 以 在 mysql 命 令 行 工 作 中 加 入 要 访问 的 数据 库 名 ， 
这 样 就 会 自动 切换 到 那个 数据 库 。 

使 用 新 用 户 成 功 连接 到 数据 库 是 个 好 兆头 ， 但 为 了 确信 所 有 设置 均 已 生效 ， 我 们 在 
hadooptest 数 据 库 中 新 建 一 个 表 ， 然 后 删除 该 表 。 上 述 操作 的 成 功 表明 hadoop 用 户 确实 拥有 修 
改 数据 库 的 权限 。 







































































小 心 收 必 的 原因 

我 们 是 不 是 有 点 太 过 谨慎 了 , 非 要 仔细 检查 MySQL 的 每 一 步 设置 。 但 是 ,我 曾经 发 现 ， 某 些 细 
微 的 拼写 错误 ， 尤 其 是 在 GRANT 语句 中 ， 都 会 导致 一 些 很 难 发 现 的 问题 。 为 了 确保 不 出 错 ， 我 们 接 
下 来 要 修改 MySQL 的 默认 配置 ， 其 实 我 们 并 不 需要 这 么 做 ， 但 如 果 不 这 样 做 ， 将 来 可 能 会 后 悔 。 


在 产品 数据 库 中 , 用 户 当然 不 能 像 书 中 这 样 随意 使 用 与 数据 库 安 全 性 密切 相关 的 语句 , 例如 
GRANT。 一 定 要 查阅 数据 库 文档 ， 完 全 和 弄 清楚 用 户 账 号 及 数据 库 权 限 的 相关 内 容 。 






































9.4 实践 环节 : 配置 MySQL 允许 远程 连接 


MySQL 的 默认 设置 会 拒绝 其 他 主机 访问 数据 库 ， 我 们 需要 对 此 进行 修改 。 
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(1) 使 用 用 户 最 喜欢 的 文本 编辑 器 编辑 /etc/mysal/my.cnf， 找 到 下 面 这 行内 容 。 
bind-address = 127.0.0.1 

(2) 在 该 行 前 面 加 入 注释 符 “#”。 
# bind-address = 127.0.0.1 

(3) 重启 MySQL。 


$ restart mysql 


原理 分 析 


大 多 数 MySQL 的 默认 配置 只 允许 从 本 地 主机 访问 数据 库 。 从 安全 的 角度 来 看 ， 这 个 配置 无 
疑 是 非常 正确 的 。 但 是 ， 它 也 会 引起 一 些 现实 问题 ， 例 如 ， 用 户 使 用 的 MapReduce 作 业 需 要 访问 
远程 数据 库 。 用 户 会 发 现 由 于 无 法 连接 数据 库 ， 作 业 最 终 失 败 。 在 这 种 情况 下 ， 用 户 在 MySQL 
主机 上 启动 mysql 命 令 行 客户 端 ， 运行 成 功 ,没有 发 现任 何 问 题 。 之 后 ， 用 户 可 能 编写 一 个 用 于 
测试 连通 性 的 JDBC 客 户 端 和 程序。 同样， 也 没有 发 现 问题 。 只 有 当 Hadoop 工 作 节 点 要 连接 MySQL 
服务 器 时 才 会 出 现 上 述 问 题 。 这 种 情况 同样 兽 困 扰 了 我 一 段 时 间 ! 

上 述 对 MySQL 默 认 设置 的 修改 会 把 MySQL 绑 定 到 所 有 可 用 接口 ， 因 此 ， 可 以 从 远程 客户 端 
访问 MySQL 数 据 库 。 

在 修改 默认 配置 后 ， 需 要 重新 启动 MySQL 服 务 器 。 在 Ubuntu 11.10 系 统 中 ,许多 服务 脚本 迁 
移 到 了 Upstart 框 架 ， 我们 可 以 直接 手动 运行 zestart 命 令 。 


如 果 用 户 使 用 的 操作 系统 不 是 Ubuntu， 或 是 Ubuntu 的 其 他 版 本 ，MySQL 配 置 文件 在 主机 上 
的 存储 位 置 可 能 稍 有 不 同 。 例 如 ， 在 CentOS 和 Red Hat 企 业 版 操作 系统 上 ，MySQL 配 置 文件 存放 
在 /etc/my.cnf 目 录 下 。 























































































































禁止 尝试 的 一 些 操作 


至 少 要 考虑 后 果 。 在 前 几 个 例子 中 , 我 们 为 新 建 用 户 帐号 设置 了 弱 口 令 , 千 万 别 这 么 做 。 特 
别 是 在 数据 库 支持 远程 访问 时 , 千 万 不 能 设置 弱 口 令 。 不 错 , 这 只 是 一 个 测试 数据 库 ， 其 数据 没 
有 任何 价值 , 但 令 人 惊讶 的 是 , 很 多 测试 数据 库 的 使 用 时 间 都 很 长 ,并 且 越 来 越 关键 。 在 此 情况 
下 ， 用 户 是 否 会 记得 删除 配置 了 弱 口 令 的 用 户 账号 ? 


讲 得 够 多 了 。 数据 库 中 需要 数据 , 接 下 来 , 我 们 将 在 hadooptest 数 据 库 中 新 建 一 个 数据 表 ， 
本 章 其 余 几 节 也 会 用 到 这 个 表 。 
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9.5 ”实践 环节 : 建立 员工 数据 库 


大 多 数 数据 库 教 程 都 使 用 员工 数据 表 作 为 示例 。 可 以 说 ， 如 果 不 讨 论 员 工 数据 库 ， 那 么 数据 
库 的 学 习 就 不 完整 。 因 此 ， 我 们 按照 惯例 ， 在 hadqooptest 数据 库 中 新 建 员 工 数据 表 。 


(1) 新 建 employees.tsv 文件 ， 它 以 tab 键 为 分 隔 符 。 其 内 容 如 下 。 


Alice Engineering 50000 2009-03-12 
Bob Sales 35000 2011-10-01 

Camille Marketing 40000 2003-04-20 
David Executive 75000 2001-03-20 
Erica Support 34000 2011-07-07 


(2) 连接 MySQL 服务 器 。 
$ mysql -u hadoopuser -p hadooptest 
(3) 创建 数据 表 。 


Mysql> create table employees( 
first name varchar(10) primary key, 
dept varchar(15), 

salary int, 

start date date 

) i 


(4) 把 employees.tsv 文件 数据 导入 数据 表 : 


mysql» load data local infile '/home/garry/employees.tsv' 
-» into table employees 
-> fields terminated by 'Nt' lines terminated by '\n' ; 











im j i 
File Edit View Terminal Help 
Server version: 5.1.66-rell4.1 (Percona Server (GPL), 14.1, Revision 495) [^l 


Copyright (c) 2000, 2012, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


owners. 


Type 'help;' or 'Ah' for help. Type Re to clear the current input statement. 





mysql> create table employees( 
-> first name varchar (10) primary key, 
-» dept varchar(15), 
-» salary int, 
-» start date date); 
Query OK, O rows affected (0.02 sec) 


mysql» load data local infile '/home/garry/employees.tsv' 
-» into table employees 
-> fields terminated by '\t' lines terminated by '\n'; 
Query OK, 5 rows affected (0.01 sec) 
Records: 5 Deleted: © Skipped: © Warnings: O 


mysql> f 
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原理 分 析 




















这 是 一 个 标准 的 数据 库 操作 流程 。 我 们 创建 了 一 个 以 tab 键 为 分 隔 符 的 数据 文件 ， 在 数据 库 
中 创建 数据 表 ， 然 后 使 用 LOAD DATA LOCAL INFILE 语 句 将 文件 数据 导入 数据 表 。 

因为 我 们 的 目的 只 是 为 了 说 明 如 何 把 数据 导入 MySQL 数 据 库 ， 因 此 本 例 中 使 用 了 一 个 很 小 
的 数据 集 。 





























留意 数据 文件 的 访问 权限 


别 忽 视 了 LOAD DATA 语 句 中 的 LocAL 关 键 字 。 这 样 做 ，MySQL 会 以 MySQL 用户 的 身份 导 人 
数据 文件 ， 通 常会 引起 文件 访问 问题 。 











9.6 ”把 数据 导入 Hadoop 
我 们 前 期 已 做 了 大 量 努 力 , 接 下 来 ,我 们 看 看 如 何 从 MySQL 数 据 库 导出 数据 ,并 导入 Hadoop。 











9.6.1 使 用 MySQL 工 具 手 工 导 入 


把 MySQL 的 导出 数据 导入 Hadoop 的 最 简单 方法 就 是 使 用 现 有 的 命令 行 工具 和 MySQL 语 句 。 
为 了 导出 整个 数据 表 或 整个 数据 库 的 内 容 ，MySQL 提 供 了 mysqldump 工 具 。 为 了 进行 更 精确 的 
数据 导出 ， 我 们 可 以 使 用 下 述 SELECT 语 句 。 

SELECT coli, col2 from table 


INTO OUTFILE '/tmp/out.csv' 
FIELDS TERMINATED by ',', LINES TERMINATED BY ''n'; 


一 旦 我 们 把 数据 导出 到 文件 中 ， 就 可 以 使 用 hadoop fs -put 把 该 文件 移 到 HDFS 上 ， 或 通 
过 上 一 章 讲 过 的 方法 将 其 导入 Hive。 











一 展 身 手 : 把 员工 数据 表 的 内 容 导 出 至 HDFS 


我 们 并 不 想 把 本 章 变 成 MySQL 教 程 。 请 自行 查看 mysaldump 工 具 的 语法 ， 然 后 用 它 或 
SELECT ... INTO OUTFILE 语 名 把 员工 数据 表 导 出 到 以 tab 为 分 隔 符 的 文件 ， 随 后 将 该 文件 
拷贝 至 HDFS。 


9.6.2 ”在 mapper 中 访问 数据 库 
对 我 们 的 小 例子 而 言 ， 上 述 方法 确实 不 错 。 但 如 果 读 者 需要 导出 一 个 更 大 的 数据 集 , 尤其 是 
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要 用 MapReduce 作 业 处 理 导 出 数据 的 时 候 ， 有 什么 更 好 的 办 法 吗 ? 


一 种 直观 的 方法 是 ， 在 MapReduce 输 入 作业 中 直接 使 用 JDBC 从 数据 库 读 取 数 据 并 写 入 
HDFS， 为 后 续 的 数据 处 理 做 好 准备 。 


这 种 方法 虽然 有 效 ， 却 存在 一 些 不 太 明 显 的 问题 。 


读者 需要 仔细 考虑 数据 库 可 以 承载 的 负荷 。 在 一 个 规模 很 大 的 集群 上 运行 这 种 作业 会 迅速 拖 
垮 数据 库 , 因为 成 二 上 万 个 mapper 要 同时 与 数据 库 建 立 连接 并 读 取 同 一 个 数据 表 的 内 容 。 最 简单 
的 访问 模式 可 能 是 每 次 读 取 一 行 数据 , 这 种 方法 的 效率 不 及 成 块 访问 方式 的 效率 高 。 即 使 数据 库 
能 够 承载 这 么 大 的 访问 量 ， 数 据 库 的 网 络 连接 也 会 马上 成 为 瓶颈 问题 。 


为 了 让 所 有 mapper 能 够 平行 进行 数据 库 查 询 操作 ,用户 需 要 制定 策略 ,把 数据 表 分 成 若干 段 ， 
每 个 mapper 读 取 一 段 数据 。 用 户 需 要 考虑 的 另 一 个 问题 是 ,如何 向 每 个 mapper 分 别传 递 数据 段 的 
参数 。 

如 果 要 读 取 的 数据 段 比较 大 ，Hadoop 框 架 很 可 能 会 终止 长 时 间 运 行 的 任务 ， 除 非 用 户 明 确 
向 Hadoop 框 架 报告 任务 进度 。 

对 这 样 一 个 概念 很 简单 的 任务 来 讲 , 需要 做 的 工作 却 很 多 , 难道 没有 一 个 现成 的 工具 可 以 完 
成 这 样 的 工作 吗 ? 实际 上 ， 确 实 存在 这 样 一 个 工具 ， 那 就 是 Sqoop ， 本 章 剩 余部 分 将 介绍 它 的 
应 用 。 



































9.6.3 ”更 好 的 方法 : 使 用 Sqoop 


Sqoop 是 由 Cloudera ( http://www.cloudera.com ) 创建 的 ， 这 家 公司 提供 了 许多 Hadoop 相 关 的 
服务 ， 同 时 也 制作 自己 的 Hadoop 软 件 安装 包 。 第 11 章 将 会 讲 到 这 些 内 容 。 
除了 提供 打包 的 Hadoop 产 品 外 ，Cloudera 公 司 也 创建 了 许多 大 众 可 以 使 用 的 工具 ，Sqoop 便 
是 其 中 之 一 。Sqoop 的 功能 正 是 我 们 想 要 实现 的 ， 它 可 以 在 Hadoop 和 关系 数据 库 之 间 拷 贝 数据 。 
尽管 Sqoop 最 初 由 Cloudera 开 发 ， 现 在 它 已 经 被 捐 给 了 Apache 软 件 基 金 会 ， 其 主页 地 址 是 
http://sqoop.apache.org。 


























9.7 ”实践 环节 : 下 载 并 配置 Sqoop 
本 节 将 要 完成 Sqoop 的 安装 和 配置 工作 。 


(1) 访问 Sqoop 主 页 ， 根据 读者 使 用 的 Hadoop 版 本 选取 1.4.1 之 后 的 最 稳定 版 本 。 下 载 安装 
文件 。 
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(2) 把 下 载 到 的 文件 拷贝 至 目标 位 置 ， 然 后 解压 缩 。 
$mv sqoop-1.4.1-incubating hadoop-1.0.0.tar.gz  /usr/local 


$ cd /usr/local 
$ tar -xzf sqoop-1.4.1-incubating  hadoop-1.0.0.tar.gz _ 


(3) 制作 符号 链接 。 
$ ln -s sqoop-1.4.1-incubating hadoop-1.0.0 sqoop 
(4) 更 新 环境 变量 。 


$ export SQOOP HOME-/usr/local/sqoop 
$ export PATH-$(SQOOP HOME)/bin:$(PATH) 


(5) 为 MySQL 数据 库 下 载 JDBC 驱动 程序 ， 其 地 址 为 http://dev.mysql.com/downloads/connector/ 
j/5.0-html., 

(6) d& F 3,8] 45 mysal-connector-java-5.0.8-bin.jar X4 FA^ Sqoop 的 lib B: 
$ cp mysgl-connector-java-5.0.8-bin.jar /opt/sqoop/lib 

(7) 测试 Sqoop 安装 是 否 成 功 。 
$ sqoop help 
上 述 命令 的 执行 结果 如 下 所 示 。 


usage: sqoop COMMAND [ARGS] 
Available commands: 


codegen Generate code to interact with database 
records 
version Display version information 


See 'sqoop help COMMAND' for information on a specific command. 


原理 分 析 





Sqoop 的 安装 过 程 并 不 复杂 。 从 Sqoop 主 页 下 载 到 所 需 版 本 ( 注意 要 选用 与 Hadoop 版 本 匹配 
的 安装 包 ) 的 安 MEME. 我 们 把 它 拷贝 到 目标 位 置 并 执行 解压 缩 操作 。 








和 其 他 工具 的 设置 过 程 一 样 ， 我 们 还 需要 设置 一 个 环境 变量 ， 并 把 Sqoop 的 bin 目 录 添 
加 到 环境 变量 中 。 这 样 ， T i NL. 也 可 以 在 一 个 配置 文件 中 调用 
Sqoop。 
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Sqoop 要 用 到 MySQL 数 据 库 的 JDBC 驱 动 ， 因 此 我 们 下 载 MySQL 连 接 器 并 把 它 找 到 Sqoop 的 
1ib 目 录 中 。 对 最 常用 的 数据 库 来 讲 ， 这 些 就 是 Sqoop 需 要 的 全 部 设置 。 如 果 读 者 想 使 用 别 的 数 
据 库 ， 请 查阅 Sqoop 文 档 。 











在 完成 上 述 最 小 安装 后 ， 我 们 在 命令 行 中 运行 sqoop， 以 验证 其 可 以 正常 运行 。 





读者 可 能 会 看 到 Sqoop 的 警告 消息 ， pube a RUE 
Do: 国 为 本 书 不 计 论 HBase 的 相关 内 容 ， 所 以 无 过 设置 这 此 变量， 我 们 会 包 咯 神 这 此 


1. Sqoop 和 Hadoop 的 版 本 

上 节 下 载 Sqoop 安 装 包 时 ， 我 们 多 次 强调 选用 合适 的 版 本 ， 在 以 前 下 载 其 他 软件 时 并 没有 这 
么 在 意 其 版 本 。 这 是 因为 ，1.4.1 版 之 前 的 Sqoop 对 Hadoop 核 心 类 中 的 某 个 方法 存在 依赖 关系 ， 而 
该 方法 只 存在 于 Cloudera 提 供 的 Hadoop 安 装 包 或 0.21 版 之 后 的 Hadoop 安 装 包 中 。 





遗憾 的 是 ，Hadoop 1.0 实 际 上 是 0.20 分 支 的 延续 ， 这 就 意味 着 ，Sqoop 1.3 可 以 与 Hadoop 0.21 
配合 使 用 , 却 无 法 与 0.20 或 1.0 版 的 Hadoop 配 合 使 用 。 为 了 避免 这 些 软 件 版 本 带 来 的 麻烦 ,我们 推 
荐 读者 使 用 1.4.1 之 后 ( 包含 1.4.1 ) 的 Sgoop， 它 们 不 会 对 Hadoop 产 生 依 赖 关 系 。 














无 需 再 对 MySQL 进 行 设 置 。 我 们 会 发 现 ,如 果 服 务 需 拒绝 远程 客户 端的 连接 , 可 以 通过 Sqoop 
修改 该 设置 。 





2. Sqoop 和 HDFS 


我 们 可 以 执行 的 最 简单 的 导入 任务 就 是 把 数据 表 的 内 容 导 出 到 HDFS 的 结构 化 文件 中 。 让 我 
们 一 起 来 做 吧 。 








9.8 ”实践 环节 : 把 MySQL 的 数据 导入 HDFS 

本 节 将 演示 一 个 较为 简单 的 例子 ， 从 MySQL 数据 表 读 取 数 据 并 将 其 写 入 位 于 HDFS 上 的 
文件 。 

(1) 运行 Sqoop， 从 MySQL 导出 数据 ,保存 在 HDFS 上 。 


$ sqoop import --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser \ > --password password --table employees 
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M. —————— T 
Bie Edt ww Jerminal Help 
nang: fMADOOP HOME 15 deprecated. 








48 INFO manager.SqlManager: Executing SOL statement; SELECT t,* FROM "employees! AS t LIMIT 1 

JOS 20:51:48 INFO orw.CompilationManager: HADOOP MOME is /opt/hadoop- 1.0. 3/1 ibexac/. . 

/tmp/&qaop- hadeop/compi Le/5104f d'SBc 751 f cbS83490c 2f 20707c /employens, java uses or overrides a deprecated APT 
Mote: Recompile with -Xlint:deprecation for details. 




















13/01/05 
13/01/05 
13/01. 
13/01/05 
13/01/05 
13/01/05 


1:4 WARN manager.MySr Manager: It looks like you are importing from mysql 
WARN sanager.MySQ.M[Qeger: This transfer can be faster! Use the --direct 

5 WARN manager.MySQ Manager: option to exercise a MySQL-specific fast path. 

IMFÓ manager.MySQLMamager: Setting zero DATETIME behavior to convertToNull (mysql) 
INEO mapreduce.Import!obRase: Baginning import of eeployees 

TMFO db.Databr 1 vangst: 



































































18 INFO mapred. JobC 
INFQ mapred.JobClient 


ent: Map output recordsss 


SPLIT PU BYTES-512 








3^ 29.9147 teconde (5,4001 bytes/sec) 
ducw. Ims 





13/01/05 7 WARN tool.BaseSqoopTool: Setting your password on the command-line 16 insecure, Consider using -P instead. 
13/01/05 TNFO manager.MySQ Manager: Preparing to usé a MYSA «treaming resulteet 

13/01/08 INFO tool.CodeGenTool: Beginning code generation 

13/01/05 INFO manager.SqlManager: Executing SAL statement: SELECT t,* FROM "employees AS t LIMIT 1 


13/01/05 1:48 INFO orm.CompilationManager: Writing Jar file: /tmp/squop-hadoop/compi le/5104f d£Qc 75a 14 cb5033400c 24 20707c /angloyses. jar 


sutFormat: BoundingValsQuery: SELECT MINU first nam ), MAX First name ) FROM  seployaes 


13/01/05 db.TextSplitter: Generating splits for a textual index colum. 

13/01/05 &b.TextSpli se-insensitive order, this may result in a partial ieport ar duplicate records, 
13/01/05 db.TextSpli You are etrongly encouraged to choosa an integral split colum. 
13/01/05 mapred,JobClient: Running job: job 201301081807 0003 

13/01/05 mapred,JobClient: map O» reduce ON 

13/01/05 Ò mapred.JobClient: map 29^ reduce O^ 

13/01/05 mapred.Jobclient: map SOM reduce O^ 

13/01/05 O mapred.JobClient: map 75% reduce O^ 

13/01/05 mepred.JobClient: map 100% reduce ON 

13/01/05 mapred.JobCliant: Job complete: job 201301051007 0003 

13/01/05 ient: Counters: ]8 

13/01/08 obcli ent Job Counters 

13/01/05 mopred, Jobcliant: SLOTS MILLIS WAPS=23911 

13/01/05 obClient Total time spent by all reduces waiting atter reserving slots (ms)-O 
13/01/05 abclient Total time «pent by all mape waiting afrer reserving slote (me]«D 
13/01/05 O eapred.JobCliant: Launched map t c 

13/01/05 mapred, JobClient: SLOTS MILLIS PEDUCES-O 

13/01/05 0 mapred.JobCliant: File Output Format Counters 

13/01/05 eapred. JobClient: Pitas Writtenslól 

13/01/08 mapred. Jabe Fi leSystenCounters 

13/01/05 pred. JobClient: VOPS BYTES READ-513 

13/01/05 mapred, JobClient: FILE DITES_ WRITTEN-121052 

13/01/08 Sapre lobClaent: HOFS BYTES WRITTENSISI 

13/01/05 © eapred.Johclient: File Input Format Counte: 

13/01/05 sepred, JobClrent: 

13/01/05 O mapred.JabClient: ^ Map-haduce Framework 

13/01/05 eapred. JohClient: ut recordess 

13/01/05 sapred. Jobctient: Physical memory (bytes! snapshots1sses2oo 

13/01 mopred, JobClient: Spilled records=0 

12/01/05 2 Ò maprèd, JobClient: CPU time spent (ma)=1040 

13/01/05 sapred. JabClient: Total comm tted heap ut&Age (bytes) 54225290 

13/01/05 2 18 IMPO mapred, JobClient: Virtual msory (bytes) snapshora)377288192 





Q) 检查 输出 目录 。 
$ hadoop fs -1s employees 
上 述 命令 的 执行 结果 如 下 。 


Found 6 items 

-rw-r--r-- 3 hadoop supergroup 0 2012-05-21 04:10 
user/hadoop/employees/ SUCCESS 

drwxr-xr-x - hadoop supergroup 0 2012-05-21 04:10 
user/hadoop/employees/ logs 

-rw-r--r-- 3 . /user/hadoop/employees/part-m-00000 





-rw-r--r-- 3 /user/hadoop/employees/part-m-00001 
-rw-r--r-- 3 . /user/hadoop/employees/part-m-00002 
-rw-r--r-- 3 . /user/hadoop/employees/part-m-00003 


(3) 查看 其 中 一 个 结果 文件 的 内 容 。 
$ hadoop fs -cat /user/hadoop/employees/part-m-00001 
上 述 命令 的 执行 结果 如 下 所 示 。 


Bob,Sales,35000,2011-10-01 
Camille,Marketing,40000,2003-04-20 


/ 


/ 
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原理 分 析 





我 们 直截了当 的 使 用 一 个 Sqoop 语 句 完成 数据 的 导入 导出 。 可 以 看 出 ，Sqoop 命 令 行 包含 多 
个 选项 ， 本 方 将 逐一 解释 其 用 法 。 


Sqoop 的 第 一 个 选项 是 要 执行 的 任务 类 型 ， 本 例 中 ， 我 们 希望 把 关系 数据 库存 储 的 数据 导入 
Hadoop 。--connect 选 项 指定 了 数据 库 的 JDBC URI， 其 标准 格式 为 jdbc:<driver>://<host>/ 
<aatabase>。 很 明显 ， 读 者 需要 根据 实际 情况 修改 其 中 的 服务 器 下 或 者 主机 名 。 


我 们 使 用 --username 和 --password 指 定 用 于 连接 数据 库 的 用 户 账号 和 口令 。 最 后 ,使 用 
--table 指 定 存储 目标 数据 的 数据 表 。 这 就 是 需要 用 户 配 置 的 全 部 内 容 ， 剩 下 的 操作 由 Sqoop 
完成 。 

Sqoop 的 输出 相对 比较 繁琐 ,但 一 定 要 阅读 这 些 内 容 ， 因 为 它 很 好 地 揭示 了 Sqoop 的 运行 
过 程 。 





























错误 。 


| 重复 执行 Sqoop 可 能 会 引发 错误 ， 因 为 生成 的 文件 已 经 存在 。 目 前 请 忽略 该 | 
~ 入 


首先 ， 在 上 述 步骤 中 ， 我 们 发 现 Sqoop 提 示 我 们 不 要 使 用 --password 选 项 ， 因 为 它 本 身 就 
是 不 安全 的 。Sqoop 提 供 了 另 一 个 提示 用 户 输入 口令 的 -Pp 命令 ,今后 就 用 它 代 蔡 -password 
选项 。 


Sqoop 还 抛 出 一 个 警告 信息 ， 告 诉 我 们 使 用 文本 主键 是 一 种 糟糕 的 做 法 ， 稍 后 将 详细 讨论 这 


个 话题 。 


在 完成 所 有 配置 之 后 ,Sqoop 抛 出 多 个 警告 信息 ,但 是 ,我 们 发 现 Sqoop 成 功 执行 了 MapReduce 
作业 。 


默认 情况 下 ，Sqoop 把 输出 文件 放 到 用 户 根 目录 下 的 某 个 目录 中 。 存 储 输出 文件 的 目录 名 与 
数据 表 的 名 称 完全 相同 。 为 了 验证 这 一 点 ， 我 们 使 用 hadoop fs -1s 检 查 该 目录 ,结果 发 现 其 
中 包含 多 个 文件 。 对 这 么 小 的 数据 表 而 言 ， 输 出 文件 的 数量 多 于 我 们 的 预期 请 注意 , 我们 稍微 
紧缩 了 一 下 输出 ， 主 机 就 能 每 行 显示 一 条 记录 。 


接着 , 我 们 检查 其 中 一 个 输出 文件 的 内 容 ， 从 中 发 现 了 输出 多 个 文件 的 原因 。 即 使 数据 表 很 
小 , Sqoop 仍 然 使 用 多 个 mapper 读 取 其 内 容 , 因此 相应 地 出 现 了 多 个 输出 文件 ,默认 情况 下 ,Sqoop 
会 使 用 4 个 map 任 务 。 本 例 稍 微 有 点 特别 ,通常 要 导入 HDFS 的 数据 非常 大 。 由 于 我 们 想 把 数据 拷 
到 HDFS, 今后 很 可 能 使 用 MapReduce 作 业 人 处 理 这 些 数据 ， 因 此 输出 多 个 文件 非常 合适 。 
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@ Mapper 及 主键 

通过 手工 方式 把 文本 列 设 为 员工 数据 库 的 主键 列 , 我 们 故意 设置 了 这 个 场景 。 实际 上 , 一 般 
使 用 自动 增长 的 、 员 工 的 数字 ID 作为 主键 。 但 是 , 使 用 文本 主键 突出 了 Sqoop 处 理 数 据 表 的 方式 ， 
以 及 主键 在 数据 处 理 过 程 中 的 作用 。 














Sqoop 根 据 主键 列 的 内 容 决 定 如 何 把 源 数据 分 段 ， 然 后 用 多 个 mapper 分 别 读 取 各 段 数据 。 但 
是 , 这 就 意味 着 ,数据 分 段 方法 依赖 于 字符 串 对 比 ， 在 大 小 写 不 完善 的 情况 下 ,结果 可 能 有 所 偏 
差 。 最 理想 的 情况 是 使 用 数字 列 作为 主键 列 。 



































或 者 , 可 以 使 用 -m 选 项 控制 mapper 的 数量 。 如果 我 们 使 用 -m 1,，Sqoop 只 会 用 到 一 个 mapper， 
这 就 没 必 要 根据 主键 列 进行 数据 分 段 。 对 于 像 我 们 用 到 这 种 小 数据 集 , 我 们 可 以 通过 这 种 方式 保 
证 只 有 一 个 输出 文件 。 























这 不 仅仅 是 一 个 选项 ， 如 果 读 者 不 用 主键 从 数据 表 导 出 数据 ，Sqoop 将 会 失败 并 抛 出 错误 ， 
提醒 用 户 从 这 种 数据 表 导 出 数据 的 唯一 办 法 就 是 明确 设置 只 使 用 一 个 mapper。 






































@ 其 他 选项 
在 导入 数据 时 ， 千 万 别 产生 Sqoop 无 所 不 能 或 一 无 所 长 的 偏见 。 用 户 还 可 以 使 用 其 他 几 个 


Sqoop 选 项 指定 、 限 定 和 修改 从 数据 库 提取 的 数据 。 我 们 会 在 后 续 儿 闻 讨论 Hive 的 时 候 说 明 这 些 
选项 的 作用 ,但 请 记 住 ， 其 中 大 多 数 选 项 也 可 用 于 把 数据 库 数 据 导 入 HDFS。 














Sqoop 的 体系 结构 


上 一 节 我 们 已 看 到 Sqoop 运 作 正 常 ， 现 在 有 必要 花 点 时 间 弄 清楚 它 的 体系 结构 及 工作 原理 。 
在 很 多 方面 ，Sqoop 和 Hadoop 的 交互 方式 与 Hive 和 Hadoop 的 交互 方式 完全 相同 。 它 们 都 是 一 个 独 
立 的 客户 端 程序 ， 可 以 创建 一 个 或 多 个 MapReduce 作 业 来 执行 任务 。 









































Sqoop 不 包含 任何 服务 器 进程 ， 我 们 运行 的 命令 行 客户 端 就 是 其 全 部 内 容 。 但 是 ， 因 为 它 能 
为 手头 特定 的 任务 生成 合适 的 MapReduce 人 代码， 因此 它 更 能 有 效 利 用 Hadoop。 








上 节 讲 到 的 基于 主键 切 分 RDBMS 中 源 数据 表 的 例子 就 很 好 地 说 明了 这 一 点 。Sqoop 知 道 
MapReduce 作 业 中 将 要 用 到 的 mapper 数 量 ( 前 几 节 曾 提 到 ， 默 认 设置 为 4 )， 基 于 此 信息 ， 它 可 以 
对 源 数 据 表 进行 智能 分 块 。 





假设 用 4 个 mapper 处 理由 100 万 条 记录 组 成 的 表 ， 那么 每 个 mapper 要 处 理 2 50 000 条 记录 。 借 
助 主键 列 的 信息 , Sqoop 可 以 创建 4 条 SQL 语句 获取 数据 , 每 条 语句 都 限定 了 目标 数据 的 主键 范围 。 
在 最 简单 的 情况 下 ， 仅 需 在 第 一 条 SQL 语句 中 加 入 wHERE id BETWEEN 1 and 250000 这 样 的 
声明 ， 并 在 其 他 语句 中 限定 不 同 的 1q 范 围 。 
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我 们 还 会 学 习 把 Hadoop 数 据 导 入 关系 数据 库 这 一 反 向 操作 的 实现 , 其 中 再 次 用 Sapo He 

个 mapper 并 行 获取 数据 ,并 优化 向 关系 数据 库 插入 数据 的 过 程 。 但 是 ,所 有 这 些 智能 控制 都 是 在 

运行 于 Hadoop 上 的 MapReduce 作 业 中 实现 的 。Sqoop 痢 命令 行 客户 端 程序 只 负责 高 效 生产 
MapReduce 代 码 ， 之 后 便 不 参与 数据 处 理 过 程 。 





























使 用 Sqoop 把 数据 导入 Hive 


Sqoop 与 Hive 的 集成 意义 重大 ， 这 就 可 以 把 关系 数据 库存 储 的 数据 导入 新 建 或 现 有 的 Hive 数 
据 表 。 可 以 通过 多 种 方式 实现 这 一 过 程 ， 但 我 们 还 是 从 一 个 简单 案例 入 手 。 


9.9 实践 环节 : 把 MySQL 数据 导出 到 Hive 
本 例 中 ,我 们 将 把 一 个 MySQL 数据 表 中 的 所 有 数据 导入 Hive 中 相应 的 数据 表 。 读 者 首先 
需要 按照 上 一 章 的 讲解 完成 Hive 的 安装 和 配置 工作 。 
(1) 删除 上 节 创 建 的 输出 目录 。 
$ hadoop fs -rmr employees 
上 述 命令 的 执行 结果 如 下 。 
Deleted hdfs://head:9000/user/hadoop/employees 
(2) 确认 Hive 中 不 存在 employees 数据 表 。 
$ hive -e "show tables like 'employees'" 
上 述 命令 的 执行 结果 如 下 。 


OK 
Time taken: 2.318 seconds 


(3) 使 用 Sqoop 执行 数据 导入 任务 。 
$ sqoop import --connect jdbc:mysq1://10.0.0.100/hadooptest 


--username hadoopuser -P 
--table employees --hive-import --hive-table employees 










































Be Ede yew Pral Hep 
13/01/08 21:44:42 INFO db.DataDei vent  eputPorsat : rey a SELECT MINU first nass ), WAY first nase ) FROM  eeplcyees 
13/01/09 21:44:42 WAIN db.T. Generating splits lor a teatual index colum. 
13/01/05 21:44:42 db 1f your database surte in à Case-insemmitiyé Order, this may result im a partial import or duplicate recordo. 
13/01/05 21:44:42 You are strongly encouraged to choose an integral split colum. 
13/01/05 21:44:42 JobClient: Funmmg job: job 201301082139 0003 
13/01/05 21:44:43 mip Dh reduce ON 
13/01/05 21:44:36 "ug 29^ reduce UN 
12/01/08 21:42:55 wap SOM reduce ON 
13/01/0& 21:45:02 wap 79^ reduce 0 
32/01/05 21:45:05 map LOOW rwduce ON 
13/01/05 21:45:10 lob ceeplete: job 201301052135 0000 
13/01/0$ 21:45:10 Counters; 
13/01/05 21:45:10 Jeb Counters 
13/01/05 21:45:10 SLOTS MILLIS MApss13343 
13/01/05 21:45:10 Total time spent by all reduces waiting aftwr reserving slote [ms]s6 
13/01/05 21:45:16 Tatal tias «pent by ell maps waiting after reserving slots [m] 
13/01/05 21:45:10 Launched mip tasks 
13/01/0$ 21:45:10 SLOTS MILLIS WEDUCESSO 
13/01/08 21:45:10 File Output Format Counters 
13/01/05 21:45:10 Bytes Writtens?6] 
[13/01/08 21:45:10 PileSystenCounters 
;3/01/0$ 21:45:10 IOFS BYTES FEAD-513 
13/01/08 21:28:10 FILE BYTES WAITTEN-I21864 
13/01/06 21:45:10 HOFS SVTES MAITTE 16) 
13/01/05 21:45:10 File Input Forest Counters 
13/01/05 21:45:10 Bytee Dwad-a 
13/01/05 21:45:10 Mag-heduze Pramewarh 
13/01/08 21:45:10 Máp input recoórdess 
12/01/0& 21:45:10 Physical memory (bytes! snapshoteltAGnn26A 
13/01/05 21:45:10 Spilled Fecordweo 
13/01/05 21:45:10 CPU fie spent (en) 1000 
13/01/05 21:49:10 Total caemitted heap usage (bytes) e54225280 
13/01/05 21:48:10 Virtual memory (bytes) &^apthotzI378372788 
13/01/08 21:45:10 Map output recarde«s 
13/01/05 21:45:10 SPLIT PAM BITESeS]3 
13/01/05 21:45:10 red 16) bytes in 29.7957 seconds [5,5029 byt «i 
12/01/08 21:45:10 了 rriwved 5 records. 
13/01/0$ 21:45:10 INFO manager.SqUManager: E»ecuting SQ. statement: SELECT t,» FROM eeployees a5 t LIMIT I 
23/01/05 21:45:10 WAAN hivs.TableDefwriter: Colum start date had to ba cast to a less precise type in Mive 
13/01/05 21:45:10 Feeoving temporary files from import proc 5 hdfst//localhost 79000/vser /hadoop/wmployees/ logs 
13/01/05 21:45:10 inading uploaded data into Hive 
1/01/05 21:48:11 Miveleport: WANIMO: nrg apache hadoop.setries. )vm-dventCounYer 18 deprecatad. Sleasa we org.apache.hadoog. log. metrics lventCoun 
leg&j.properties files, 
13/01/06 21:45:12 IMPO h: Logging i mutielizsd using configuration in jar:file:/opt/hi ve: 0.8. 1/lib/ha ve: common: 0.8. 1. jar! /hive Log] .proparties 
13/01/05 21:45:12 INFO hi Hive Instory files/tmp/hadoop/htwe Jub log hadocg 20130105248 1436537341.tat 
13/01/05 21:45:15 INFO hiv :™ 
3/01/05 21:45:15 IFO hive. mveyeport; Tume Taken: 2.812 wecondw 
13/01/05 21:45:15 1MFO hive. Wvelnport: Loading data to table default.amployena 
13/01/08 21:45:15 INFO hiv (x 
13/01/05 21:45:15 INFO hi Timm tahen: 0,395 seconds 
Mive yeport comple 
pert directery is empty, remving Yt. 


EH 














(4) 检查 Hive 中 的 内 容 。 
$ hive -e "select * from employees" 


上 述 命令 的 执行 结果 如 下 。 


OK 

Alice Engineering 50000 2009-03-12 
Camille Marketing 40000 2003-04-20 
David Executive 75000 2001-03-20 
Erica Support 34000 2011-07-07 


Time taken: 2.739 seconds 


(5) 检查 Hive 中 已 创建 的 数据 表 。 
$ hive -e "describe employees" 
上 述 命令 的 执行 结果 如 下 。 


OK 


first name string 


dept 
salary 


start date 
Time taken: 


string 

int 

string 
2.553 seconds 
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原理 分 析 








本 例 中 用 到 了 Sqoop 的 两 个 新 选项 : --hive-import 选 项 指明 数据 的 目标 存储 位 置 是 Hive 
而 非 HDFS，--hive-table to 则 指明 了 Hive 中 用 于 存储 导入 数据 的 数据 表 。 


事实 上 , 如 果 Hive 中 存储 导入 数据 的 表 与 --table 选 项 指定 的 源 数 据 表 一 致 的 话 , 无 需 专门 
首 明 Hive 表 名 。 但 是 ，--hive-table to 选项 使 它 变 得 更 明确 ， 因 此 我 们 通常 都 要 用 到 该 选项 。 


和 以 前 一 样 ， 一 定 要 从 头 到 尾 仔细 阅读 Sqoop 的 输出 ， 因 为 它 能 揭示 S$qoop 的 运行 情况 ， 最 
后 几 行 表明 数据 成 功 导入 了 新 建 的 Hive 表 。 


我 们 看 到 ，Sqoop 从 MySQL 获 取 了 5 行 数据 ， 然 后 就 把 它们 拷贝 到 HDFS 并 导入 Hive。 接 下 来 
我 们 会 讨论 关于 类 型 转换 的 警告 。 


Sqoop 完 成 数据 导入 任务 后 , 我 们 从 新 建 的 Hive 表 中 读 取 数据 以 确认 结果 和 预期 一 致 。 接 着 ， 
我 们 检查 了 新 建 的 employees 表 的 定义 。 


这 时 ， 出 现 了 一 些 奇怪 的 现象 : start_date 列 在 MySQL 数 据 库 中 是 DATE 类 型 ， 而 现在 却 
成 了 string 类 型 。 


Sqoop 运 行 时 输出 的 警告 信息 可 以 解释 这 个 现象 。 






































12/05/23 13:06:33 WARN hive.TableDefWriter: Column start date had to be 
cast to a less precise type in Hive 


出 现 这 种 现象 的 原因 在 于 ， 除 TIMESTAMP 之 外 ，Hive 不 支持 其 他 临时 数据 类 型 。 如 果 被 导 
入 的 数据 是 与 时 间或 日 期 相关 的 其 他 类 型 ，Sqoop 会 把 它 转换 成 string 类 型 。 稍 后 我 们 会 介绍 处 理 
这 种 情况 的 办 法 。 
本 例 提 到 的 操作 非常 常见 ,但 我 们 并 非 总 是 想 把 整个 数据 表 导 入 Hive。 有 时 ， 我们 只 想 把 


特定 几 列 数据 导入 Hive， 或 者 在 数据 导入 之 前 进行 筛选 以 减少 数据 项 。Sqoop 可 以 用 于 这 两 种 
场景 。 

















9.10 ”实践 环节 : 有 选择 性 的 导入 数据 
接 下 来 ， 我 们 将 学 习 如 何 通过 条 件 语句 有 选择 地 把 MySQL 数据 导入 Hive. 
(1) 删 掉 Hadoop 中 现 有 的 employees 目录 : 
$ hadoop fs -rmr employees 


上 述 命 令 的 执行 结果 如 下 : 





Ju 
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Deleted hdfs://head:9000/user/hadoop/employees 
(2) 使 用 条 件 语句 导入 选中 的 数据 列 。 


Sqoop import --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser -P 

--table employees --columns first name,salary 

--where "salary > 45000" 

--hive-import --hive-table salary 


上 述 命令 的 执行 结果 如 下 。 

12/05/23 15:02:03 INFO hive.Hivelmport: Hive import complete. 
(3) 检查 新 建 的 Hive 数据 表 。 

$ hive -e "describe salary" 

上 述 命令 的 执行 结果 如 下 。 

OK 

first name string 


salary int 
Time taken: 2.57 seconds 


(4) 检查 Hive 表 中 的 导入 数据 。 
$ hive -e "select * from salary" 


上 述 命令 的 执行 结果 如 下 。 


OK 
Alice 50000 
David 75000 


Time taken: 2.754 seconds 


原理 分 析 

这 次 ， 我 们 在 Sqoop 命 令 中 加 入 --columns 选 项 ， 指 定 将 哪 几 列 的 数据 导入 Hive。 该 参数 的 
值 是 以 逗号 为 分 隔 符 的 列表 。 

我 们 还 用 到 了 --where 选 项 , 用 它 指定 数据 筛选 条 件 , 其 作用 相当 于 SQL 语句 中 的 wHERE 子 句 。 


组 合 使 用 上 述 两 个 选项 ， 意 味 着 Sqoop 只 会 把 薪水 值 大 于 wHERE 子 句 指 定 的 门限 值 的 员工 姓 
名 和 薪水 导 人 Hive。 


在 成 功 执行 Sqoop 命 令 后 ， 我 们 检查 了 Hive 中 创建 的 数据 表 。 我 们 发 现 ， 表 中 确实 只 包含 姓 
名 和 薪水 两 列 ， 接 着 我 们 输出 表 的 内 容 ， 以 验证 数据 导入 过 程 正确 地 应 用 了 判断 语句 。 
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数据 类 型 的 问题 

我 们 在 第 8 章 曾 提 到 , Hive 仅 支持 部 分 常用 的 SQL 数据 类 型 。 尤 其 是 , 目前 Hive 尚 不 支持 DATE 
和 DaATETIME 数 据 类 型 ， 尽 管 这 确实 是 Hive 存 在 的 一 个 问题 。 因 此 ， 今 后 很 有 可 能 Hive 会 加 入 对 
这 两 个 数据 类 型 的 支持 。 本 章 前 几 节 讲 到 的 例子 就 受到 了 这 个 因素 的 影响 。 尽 管 start_date 列 
在 MySQL 中 的 数据 类 型 为 DATE,，Sqoop 在 导入 数据 时 抛 出 类 型 转换 的 警告 , 导致 该 列 在 Hive 中 的 


数据 类 型 变 为 STRING。 


Sqoop 提 供 了 一 个 有 用 的 选项 ， 也 就 是 说 ， 我 们 可 以 使 用 --map-column-hive 选 项 明确 指 
定 Hive 表 中 新 建 数据 列 的 数据 类 型 。 











x 
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接 下 来 ， 我 们 使 用 类 型 映射 改进 数据 导入 过 程 。 

(1) 删除 Hadoop 上 已 有 的 employees 目录 。 
$ hadoop fs -rmr employees 

(2) 明确 使 用 类 型 映射 执行 Sqoop 命令 。 
Sqoop import --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser 
-P --table employees 


--hive-import --hive-table employees 
--map-column-hive start date-timestamp 


上 述 命令 的 执行 结果 如 下 。 

12/05/23 14:53:38 INFO hive.HiveImport: Hive import complete. 
(3) 检查 新 建 数据 表 的 定义 。 

$ hive -e "describe employees" 


上 述 命令 的 执行 结果 如 下 。 





OK 

first name string 
dept string 

salary int 

start_date timestamp 
Time taken: 2.547 seconds 


(4) 检查 导入 到 Hive 表 中 的 数据 。 


$ hive -e "select * from employees"; 
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上 述 命令 的 执行 结果 如 下 。 


Failed with exception java.io.IOException:java.lang. 
IllegalArgumentException: Timestamp format must be yyyy-mm-dd 
hh:mm:ss[.fffffffff] 

Time taken: 2.73 seconds 


原理 分 析 


本 节 用 到 的 Sqoop 命 令 行 与 最 初 从 MySQL 向 Hive 导 入 数据 的 命令 类 似 , 只 是 新 增 了 一 个 列 映 
射 声 明 。 我 们 指定 start_dqate 列 的 数据 类 型 为 TIMESTAMP ， 除 此 之 外 ， 还 可 以 增加 其 他 声明 。 
该 选项 的 值 是 以 逗号 为 分 隔 符 的 列表 。 


在 确认 Sqoop 命 令 执 行 成 功 后 ， 我 们 检查 了 新 建 的 Hive 数 据 表 并 验证 类 型 映射 确实 发 挥 了 作 
用 ，start_dqate 列 的 数据 类 型 确实 是 TIMESTAMP。 


接着 , 我 们 尝试 从 Hive 表 中 读 取 数 据 ,该 过 程 以 失败 而 告终 ，Hive 抛 出 一 个 类 型 格式 不 匹配 
的 错误 信息 。 


仔细 想 想 ， 这 也 没什么 值得 惊讶 的 。 尽 管 我们 指定 目标 列 的 数据 类 型 为 TIMESTAMP， 但 从 
MySQL 导 入 的 数据 类 型 实 为 DATE， 其 中 并 不 包含 TIMESTAMP 类 型 所 需 的 时 间 元 素 。 这 个 教训 要 
牢记 。 保 证 使 用 正确 的 数据 类 型 映射 只 是 解决 数据 类 型 问题 的 一 个 方面 , 还 必须 同时 确保 目标 数 
据 符合 指定 的 数据 类 型 的 要 求 。 

































































9.12 KEMT: 通过 原始 查询 导入 数据 
本 节 将 学 习 如 何 使 用 原始 的 SQL 查询 筛选 目标 数据 ， 并 将 其 导入 Hive 表 。 
(1) 删除 Hadoop 上 现 有 的 employees 目录 。 
$ hadoop fs -rmr employees 
(2) 删除 Hive 中 已 有 的 employees 数据 表 。 
$ hive -e 'drop table employees' 
(3) 使 用 原始 查询 选 定 目 标 数据 ， 使 用 Sqoop 命令 将 其 导入 Hive, 
Sqoop import --connect jdbc:mysq1://10.0.0.100/hadooptest 


--username hadoopuser -P 
--target-dir employees 


9.12 实践 环节 ; 通过 原始 查询 导入 数据 259 





--query 'select first name, dept, salary, 
timestamp(start date) as start date from employees where 
S$CONDITIONS' 

--hive-import --hive-table employees 

--map-column-hive start date-timestamp -m 1 


(4) 检查 Hive 中 刚 创建 的 employees 数据 表 。 
$ hive -e "describe employees" 
上 述 命令 的 执行 结果 如 下 。 


OK 

first name string 

dept string 

salary int 

start date timestamp 
Time taken: 2.591 seconds 


(5) 检查 employees 数据 表 中 的 数据 。 
$ hive -e "select * from employees" 
上 述 命令 的 执行 结果 如 下 。 


OK 

Alice Engineering 50000 2009-03-12 00:00:00 
Bob Sales 35000 2011-10-01 00:00:00 

Camille Marketing 40000 2003-04-20 00:00:00 
David Executive 75000 2001-03-20 00:00:00 
Erica Support 34000 2011-07-07 00:00:00 
Time taken: 2.709 seconds 


原理 分 析 





为 了 达到 目标 , 我 们 使 用 了 一 种 截然 不 同 的 方法 完成 数据 导入 任务 。 以 前 , 我 们 指定 目标 数 
据 表 ， 然 后 使 用 Sqoop 命 令 导入 其 部 分 或 全 部 数据 。 与 此 不 同 ， 本 例 使 用 --query 选 项 明确 定义 
一 个 SQL 查询 语句 ， 通 过 该 语句 指明 要 导入 的 数据 范围 。 


在 SQL 语句 中 ， 我 们 选中 了 源 数据 表 的 所 有 列 ， 并 使 用 Fimestamp () 方 法 将 start_date 
列 的 数据 转换 为 合适 的 类 型 ( 请 注意 ， 该 方法 仅 在 日 期 的 基础 上 加 入 00 :00 时 间 元 素 )。 我 们 为 
北 函 数 的 执行 结果 取 了 个 别名 ， 便 于 在 类 型 映射 选项 中 引用 这 些 数据 。 


因为 我 们 没有 指定 --table 选 项 ， 不 得 不 加 入 --target-dir 选 项 以 指定 HDFS 上 的 输出 
目录 。 








260 第 9 章 与 关系 数据 库 协 同 工 作 





Sqoop 要 求 我 们 必须 在 SQL 语句 中 加 入 wHERE 子 句 ， 即 使 根本 不 会 用 到 这 个 条 件 语句 。 不 指 
定 --table 选 项 不 仅 意味 着 Sqoop 无 法 自动 生成 存储 导出 数据 的 路 径 名 , 而 且 Sqoop 不 知道 从 哪个 
表 中 获取 数据 , 进而 也 不 知道 如 何 为 多 个 mapper 切 分 数据 。 在--where 选 项 后 紧 接 $CONDITIONS 
变量 的 意义 在 于 ，$CONDITIONS 变 量 会 为 Sqoop 提 供 切 分 数据 表 所 需 的 信息 。 


本 例 中 ， 我 们 采用 了 不 同 的 处 理 方式 ， 明 确 地 将 mapper 的 数量 设 为 1， 避 免 了 使 用 数据 分 块 
T^. 


在 Sqoop 执 行 完成 之 后 ， 我 们 检查 了 Hive 数 据 表 的 定义 ， 结 果 表 明 ， 所 有 列 的 数据 类 型 都 完 
全 正确 。 接 着 ， 我 们 又 检查 了 表 中 数据 ， 这 次 查询 终于 成 功 了 ， 因 为 start_dqate 列 的 值 已 转换 


成 了 TIMESTAMP 类 型 。 

















我 们 曾 提 到 ， 用 户 可 以 使 用 Sqoop 只 提取 数据 库 中 的 部 分 数据 ，Sqoop 提 供 
的 query、where 和 columns 选 项 可 以 限定 待 提取 数据 的 范围 。 需 要 注意 的 是 ， 
~> 这 些 选项 可 以 用 于 所 有 Sqoop 数 据 导 入 任务 ,而 与 导入 数据 的 目标 存储 位 置 无 
关 。 


一 展 身手 


尽管 示例 中 的 数据 集 规 模 太 小 ， 完 全 不 需要 对 其 进行 数据 切 分 ， 但 $SCONDITIONS 变 量 仍 
是 个 很 重要 的 工具 。 请 修改 上 例 , 在 Sqoop 语 名 中 使 用 多 个 mapper， 并 明确 定义 数据 分 块 语句 。 





1. Sqoop 和 Hive 数 据 分 块 


我 们 在 第 8 章 对 Hive 数 据 分 块 进行 了 大 量 讨论 ， 并 强调 了 它 对 优化 大 规模 数据 表 的 查询 效率 
具有 重要 作用 。Sqoop 文 持 在 Hive 中 进行 数据 分 块 ， 这 是 个 令 人 振奋 的 好 消息 ,但 是 不 要 高 兴 得 
太 早 ， 它 对 Hive 数 据 分 块 的 支持 并 不 完整 。 


为 了 把 关系 数据 库 的 数据 导入 Hive 分 区 表 ， 我 们 使 用 --hive- partition-key 选 项 指定 分 
区 列 ， 使 用 --hive-partition- value 选 项 指定 分 区 值 ，Sqoop 命 令 会 根据 该 值 决定 把 导入 数 
据 插入 哪个 分 区 表 中 。 


这 是 一 个 好 办 法 ， 但 用 户 必须 提供 相应 的 Sqoop 语 句 才能 把 导入 数据 插入 某 个 分 区 表 。 目 前 
Sqoop 尚 不 提供 对 Hive 自 动 分 区 的 支持 。 如 果 读 者 想 把 某 个 数据 集 插入 多 个 Hive 分 区 表 ， 只 能 多 
次 通过 Sqoop 语 句 逐 表 插 入 。 









































2. 字段 分 隔 符 和 文本 行 分 隔 符 


截至 目前 , 我 们 一 直 暗 中 依赖 于 某 些 默认 设置 , 但 现在 应 该 探讨 一 下 这 些 内 容 。 原 始 文本 文 
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件 以 制 表 符 为 分 隔 符 ， 但 读者 可 能 注意 到 ， 导 入 HDFS 的 数据 却 以 逗号 为 分 隔 符 。 如 果 读 者 查看 
/user/hive/ warehouse/employees (这 是 Hive 在 HDFS 上 存储 源 文件 的 默认 位 置 ) 目录 中 的 
文件 ， 文 件 中 的 记录 又 以 ASCII 码 001 作 为 分 隔 符 。 这 到 底 是 怎么 回 事 呢 ? 


在 第 一 个 例子 中 , 我 们 使 用 Sqoop 的 默认 分 隔 符 , 也 就 是 说 , 使 用 逗号 作为 字段 间 的 分 隔 符 ， 
并 使 用 \n 作 为 记录 间 的 分 隔 符 。 但 是 ， 当 Sqoop 把 数据 导入 Hive 之 后 ， 却 又 使 用 Hive 的 默认 值 ， 
也 就 是 使 用 ASCII 码 001 (^A) 来 分 隔 字段 。 


我 们 可 以 使 用 下 列 Sqoop 选 项 明确 设置 分 隔 符 。 



































口 fields-terminated-by: 设置 字段 间 分 隔 符 。 

口 lines-terminated-by: 设置 文本 行 分 隔 符 。 

O escaped-by: 指定 转 义 字符 ( 例如，\)。 

口 enclosed-by: 用 于 封闭 字段 的 字符 (例如 ，" )。 

口 optionally-enclosed-by: 与 上 个 选项 相似 ,但 不 是 强制 使 用 的 。 
口 mysql-delimiters: 使 用 MySQL 默 认 值 的 快捷 设置 。 


这 些 分 隔 符 看 似 多 得 吓人 , 其 实 它 们 并 不 像 这 些 术语 那样 难 懂 , 有 SQL 使 用 经 验 的 人 应 该 对 
这 些 概念 和 用 法 非常 熟悉 。 前 几 个 选项 无 需 过 多 解释 , 但 封闭 字符 和 可 选 封闭 字符 的 含义 却 不 是 
那么 明显 。 


这 两 个 选项 用 于 给 定 字 段 中 包含 特殊 字符 的 情况 。 例 如 ,， 某 个 文件 以 逗号 为 分 隔 符 ,其 中 革 
列 的 数据 类 型 为 string， 而 该 列 的 某 个 值 中 包含 有 逗号 。 在 这 种 情况 下 ， 我 们 要 把 该 字符 串 放 入 
引号 ,这 样 才能 保证 使 用 逗号 作为 字段 分 隔 符 。 如 果 所 有 字段 都 需要 使 用 封闭 字符 ,那么 就 要 使 
用 “enclosed-by” 选 项 ， 而 如 果 只 是 部 分 字段 要 用 到 封闭 字符 ， 那 么 就 应 该 使 用 “optionally- 
enclosed-by” 选 项 。 












































9.13 ”从 Hadoop 导出 数据 


我 们 曾 提 到 ,Hadoop 和 关系 数据 库 之 间 的 数据 流 是 一 个 线性 的 单 向 过 程 ， 这 是 非常 军 见 的 。 实 
际 上 , 我 们 更 常 遇 到 把 Hadoop 处 理 过 的 数据 插入 关系 数据 库 的 情况 。 接 下 来 , 我 们 将 讨论 这 个 问题 。 


























9.13.1 在 reducer 中 把 数据 写 入 关系 数据 库 


考虑 一 下 如 何 把 MapReduce 作 业 的 输出 数据 拷 和 关系 数据 库 ， 我 们 发 现 ， 其 解决 方法 和 向 
Hadoop 导 入 数据 的 方法 类 似 。 


一 种 直观 的 方法 是 修改 reducer 代 码 ， 使 其 生成 每 个 键 及 对 应 的 值 之 后 ， 直 接 通 过 JDBC 把 它 
们 插入 数据 库 。 我 们 不 必 像 从 关系 数据 库 导 入 数据 那样 考虑 如 何 对 源 数据 分 段 , 但 仍 要 考虑 数据 
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库 能 够 承载 的 负荷 ， 以 及 是 否 需 要 考虑 长 时 间 运 行 任务 的 超时 问题 。 此 外 ,与 mapper 遇 到 的 问题 
一 样 , 这 种 方法 要 对 数据 库 执行 多 次 查询 , 而 每 次 查询 只 插入 一 条 数据 , 其 效率 远 低 于 成 批 操 作 。 








9.13.2 ”利用 reducer 输 出 SQL 数据 文件 


通常 ， 较 好 的 解决 办 法 不 会 围绕 负责 后 成 输出 文件 的 MapReduce 作 业 下 功夫 ,而 重点 在 于 如 
何 利用 它 。 


所 有 关系 数据 库 都 可 通过 定制 工具 或 是 LOAD DATRA 语 句 接收 源 文件 里 的 数据 。 因 此 ， 我 们 
可 以 改写 reducer 的 数据 输出 方法 , 使 其 更 易于 被 插入 关系 数据 库 。 这 就 避免 了 考虑 reducer 带 给 数 
据 库 的 负担 ， 以 及 如 何 处 理 长 时 间 运 行 任务 的 麻烦 , 但 需要 在 MapReduce 作 业 完 成 之 后 添加 一 个 
步骤 ， 把 输出 文件 的 数据 导入 关系 数据 库 。 
































9.13.3” 仍 是 最 好 的 方法 


Sqoop 还 可 以 用 于 从 Hadoop 向 关系 数据 库 导 入 数据 ， 这 应 该 没什么 奇怪 的 。 如 果 读 者 曾 浏 览 
过 Sqoop 使 用 帮助 或 其 在 线 文档 ， 就 会 觉得 这 是 理所当然 的 。 





9.14 ”实践 环节 : 把 Hadoop 数据 导入 MySQL 
本 节 将 演示 如 何 把 HDFS 文件 数据 导入 MySQL 数据 表 。 


(1) 创建 newemployees.tsv 文件 ， 其 以 制 表 符 为 分 隔 符 ， 内 容 如 下 所 示 。 


Frances Operations 34000 2012-03-01 
Greg Engineering 60000 2003-11-18 
Harry Intern 22000 2012-05-15 

Iris Executive 80000 2001-04-08 
Jan Support 28500 2009-03-30 


(2) 在 HDFS 上 新 建 一 个 目录 ， 将 newemployees.tsv PAGE B Ko 


$hadoop fs -mkdir edata 
$ hadoop fs -put newemployees.tsv edata/newemployees.tsv 


(3) 确认 employees 数据 表 中 的 记录 数 。 


$ echo "select count(*) from employees" 
mysql -u hadoopuser -p hadooptest 


上 述 命令 的 执行 结果 如 下 。 
Enter password: 


count (*) 
5 
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(4) 运行 Sqoop， 将 HDFS 上 的 文件 数据 导入 MySQL. 
$ sqoop export --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser -P --table employees 
--export-dir edata --input-fields-terminated-by 'Nt' 


上 述 命令 的 执行 结果 如 下 。 


12/05/27 07:52:22 INFO mapreduce.ExportJobBase: Exported 5 
records. 


(5) 再 次 检查 employees 数据 表 中 的 记录 数 。 


Echo "select count(*) from employees" 
| mysql -u hadoopuser -p hadooptest 


上 述 命令 的 执行 结果 如 下 。 
Enter password: 
count (*) 
10 
(6) 检查 employees 数据 表 中 的 数据 内 容 。 


$ echo "select * from employees" 
| mysql -u hadoopuser -p hadooptest 


上 述 命令 的 执行 结果 如 下 。 


Enter password: 


first name dept salary start date 
Alice Engineering 50000 2009-03-12 
Frances Operations 34000 2012-03-01 
Greg Engineering 60000 2003-11-18 
Harry Intern 22000 2012-05-15 

Iris Executive 80000 2001-04-08 

Jan Support 28500 2009-03-30 


原理 分 析 au 


我 们 首先 创建 一 个 数据 文件 , 并 在 该 文件 中 加 入 5 条 新 员工 数据 。 在 HDFS 上 创建 一 个 存储 该 
数据 文件 的 目录 。 


在 运行 导出 任务 之 前 ， 我 们 确认 MySQL 数 据 表 中 只 存储 了 原来 的 5 个 员工 数据 。 


Sqoop 命 令 的 结构 与 之 前 类 似 ， 最 大 的 变化 在 于 ， 使 用 的 是 export 命 令 。 顾 名 思 义 ， 导 出 
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Hadoop 数 据 并 插入 关系 数据 库 。 


本 例 用 到 了 几 个 选项 , 它们 和 之 前 的 用 法 相同 , 主要 用 于 设置 要 连接 的 数据 库 地 址 ,连接 数 
据 库 使 用 的 用 户 帐号 和 口令 ， 以 及 要 把 数据 插入 哪个 数据 表 。 


因为 我 们 要 从 HDFS 导 出 数据 ， 因 此 需要 通过 --export-dir 选 项 指定 包含 待 导出 数据 文件 
的 目录 。Sqoop 会 生成 一 个 MapReduce 作 业 ， 然 后 把 该 目录 下 的 所 有 文件 全 部 导出 ， 因 此 导出 目 
录 下 有 一 个 文件 还 是 多 个 文件 对 于 导出 任务 没有 多 大 影响 ,默认 情况 下 ,Sqoop 会 使 用 4 个 mapper， 
如 果 读 者 需要 导出 大 量 文件 ,那么 增 大 mapper 的 数量 会 提高 作业 的 运行 效率 ,读者 可 以 尝试 一 下 ， 
但 要 确保 数据 库 能 够 承载 这 么 多 的 并 发 连接 。 


Sqoop 用 到 的 最 后 一 个 选项 指明 了 源 文件 使 用 的 分 隔 符 ， 本 例 使 用 制 表 符 作为 分 隔 符 。 读 者 
需要 自己 指明 数据 文件 的 格式 ，Sqoop 会 认为 每 条 记录 的 字段 数 和 数据 表 的 列 数 保持 一 致 ( 尽管 
Sqoop 文 持 空 字段 值 )， 并 且 各 字段 由 指定 的 分 隔 符 分 开 。 


在 Sqoop 命 令 成 功 执行 后 , 它 向 用 户 报告 已 导出 5 条 记录 。 随 后 , 我 们 使 用 mysql 工 具 检 查 数 
据 表 中 的 当前 记录 总 数 , 并 接着 查看 数据 表 的 内 容 , 以 确认 新 员工 数据 和 原 有 的 员工 数据 都 存在 
于 数据 表 中 。 


1. Sqoop 导 入 和 导出 的 区 别 


尽管 Sqoop 导 入 和 导出 在 概念 上 和 命令 行 调用 方面 非常 相似 ,但 它们 之 间 存 在 许多 重要 区 别 ， 
值得 我 们 深入 人 研究 。 


首先 ， 在 使 用 Sqoop 导 和 数据 时 ，Sqoop 对 数据 结构 和 数据 类 型 的 了 解 更 详细 一 些 。 但 是 ， 
在 导出 数据 时 ，Sqoop 只 知道 源 文件 位 置 以 及 字段 和 记录 间 的 分 隔 符 。 此 外 ,，Sqoop 导 和 人 数据 时 可 
根据 源 数据 表 的 名 称 和 结构 自动 新 建 一 个 Hive 数 据 表 , 但 只 能 把 导出 数据 插入 关系 数据 库 中 的 已 
有 数据 表 。 


使 用 Sqoop 导 入 数据 时 , Sqoop 可 以 意识 到 源 数据 与 Hive 表 中 各 列 的 数据 类 型 是 否 匹 配 。 尽管 
之 前 对 DATE 类 型 和 TIMESTAMP 类 型 的 介绍 表明 Sqoop 在 这 方面 做 得 不 是 很 完美 , 但 至 少 不 必 等 
到 数据 已 插入 Hive 表 之 后 才 发 现 问题 。 而 对 Sqoop 导 出 而 言 ， 它 只 负责 高 效 读 取 各 字段 内 容 ， 无 
需 理解 数据 类 型 。 假 如 用 户 很 幸运 ， 要 导出 的 数据 格式 非常 规整 ， 可 能 不 会 有 什么 麻烦 。 但 大 多 
数 人 不 得 不 考虑 导出 数据 的 格式 转换 ， 尤 其 是 数据 中 存在 空 字段 和 默认 值 的 情况 下 。S$qoop 文 档 
深度 讲解 了 这 些 内 容 ， 读 者 有 必要 认真 阅读 。 


2. 插入 和 更 新 的 对 比 


上 个 例子 比较 简单 , 我们 向 关系 数据 库 导 入 的 是 全 新 数据 集 , 它 可 以 与 表 中 原 有 数据 同时 存 
在 。 默 认 情 况 下 ，Sqoop 导 出 数据 时 进行 了 一 些 列 扩展 ， 它 把 每 条 记录 当做 一 行 新 数据 加 入 数 
据 表 。 
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但 是 , 如 果 我 们 以 后 想 更 新 数据 时 , 例如 , 年底 的 时 候 为 员工 涨 了 工资 ,此 时 该 怎么 办 呢 ? 
由 于 我 们 把 first_name 定 义 为 数据 表 的 主键 ,如 果 要 插入 数据 的 姓名 字段 与 现 有 员工 姓名 相 
同 ， 那 么 插入 操作 就 会 失败 。 

在 这 种 情况 下 ， 我 们 可 以 在 Sqoop 命 令 中 设置 --update-key 选 项 ， 通 过 该 选项 指定 主键 ， 
Sqoop 就 会 根据 该 键 (也 可 以 是 以 逗号 分 隔 的 多 个 键 ) 生成 UPDATE 语 句 ， 达 到 更 新 原 有 记录 部 分 
字段 的 目的 。 


























S 在 这 种 模式 下 ，Sqoop 将 会 略 去 与 现 有 键 的 值 不 匹配 的 记录 ， 而 且 如 果 被 更 
~ 新 的 数据 多 于 一 行 ，Sqoop 也 不 会 抛 出 错误 信息 。 





假如 读 考 想 在 更 新 现 有 数据 的 同时 ， 在 数据 表 中 加 入 并 不 存在 的 新 记录 ， 可 以 将 


一 -update-mode 选 项 设置 成 al lowinsert, 





一 展 身手 
新 建 一 个 数据 文件 ， 其 中 包含 3 条 新 员工 记录 ， 同 时 对 2 位 老 员 工 的 薪水 进行 了 调整 。 使 用 
Sqoop 的 导入 模式 将 新 员工 数据 加 入 数据 表 ， 并 更 新 老 员工 的 薪水 数据 。 
3. Sqoop 和 Hive 导 出 


从 上 例 可 以 看 出 ，Sqoop 目 前 无 法 直接 将 Hive 数 据 表 导 入 关系 数据 库 ， 读 者 对 此 不 会 感到 特别 
吃惊 。 更 确切 地 说 , Sqoop 中 提供 了 --hive-import 这 样 的 导入 选项 , 却 没 有 提供 类 似 的 导出 选项 。 


但 是 , 在 某 些 情况 下 , 我 们 可 以 解决 这 个 问题 。 假 如 Hive 数 据 表 以 文本 形式 存储 数据 ， 我 们 
可 以 设置 Sqoop， 使 其 指向 HDFS 上 存储 这 些 表 数据 文件 的 位 置 。 如 果 数 据 表 存储 的 是 外 部 数据 ， 
这 就 更 简单 了 。 但 是 如 果 Hive 数 据 表 进行 了 复杂 的 分 区 操作 ， 那 么 文件 目录 结构 就 更 为 复杂 。 

Hive 数 据 表 中 也 可 以 存储 二 进 制 SequenceFile, Sqoop 的 一 个 缺点 在 于 其 目前 无 法 透明 导出 这 
种 格式 的 数据 。 



































9.15 ”实践 环节 : 把 Hive 数据 导入 MySQL 
先 别 管 Sqoop 的 这 些 缺 点 ， 本 节 将 展示 如 何 使 用 Sqoop 直接 导出 Hive 数据 表 的 数据 。 
(1) 删除 employees 数据 表 中 的 所 有 数据 。 


$ echo "truncate employees" | mysql -u hadoopuser -p hadooptest 


上 述 命令 的 执行 结果 如 下 。 
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Query OK，0 rows affected (0.01 sec) 
(2) € € hive/warehouse/employees 的 内 容 。 


$ hadoop fs -ls /user/hive/warehouse/employees 
上 述 命令 的 执行 结果 如 下 。 


Found 1 items 
... /user/hive/warehouse/employees/part-m-00000 


(3) 使 用 Sqoop 命令 执行 数据 导出 任务 。 


Sqoop export --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser -P --table employees \ 

--export-dir /user/hive/warehouse/employees 
--input-fields-terminated-by '\001' 
--input-lines-terminated-by 'n' 
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原理 分 析 


首先 ， 我 们 删除 MySQL 数 据 库 中 employees 数 据 表 的 所 有 数据 ， 然 后 确认 该 数据 表 位 于 


/user/hive/warehouse/employees 日 录 。 
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请 注意 ,Sqoop 可 能 会 在 该 路 径 下 创建 一 个 空白 文件 ,其 文件 后 级 为 _SUCCESS。 
S 如 果 该 目录 下 确实 存在 这 个 文件 的 话 ， 一 定 要 在 运行 Sqoop 之 前 把 它 删 除 。 








Sqoop 的 export 命 令 与 以 前 的 用 法 相似 , 唯一 的 区 别 在 于 , 本 例 中 源 数据 文件 的 存储 位 置 发 
生 了 变化 , 并 且 明 确 指 定 了 字段 和 文本 行 分 隔 符 。 回 忆 一 下 , 在 默认 情况 下 , Hive 分 别 使 用 ASCII 
码 001 和 \n 作 为 字段 分 隔 符 和 文本 行 分 隔 符 。 同 时 ， 由 于 我 们 向 Hive 导 入 数据 时 使 用 了 其 他 分 隔 
符 ， 因 此 需要 对 其 进行 检查 。 


运行 Sqoop 命 令 , 发 现在 创建 java.sql .Date 实 例 时 出 错 , 错误 原因 是 IllegalArgument- 


Exceptions, 


这 个 问题 与 之 前 遇 到 的 问题 刚好 相反 : 原来 把 MySQL 数 据 导入 Hive 数 据 表 时 ， 由 于 Hive 不 
支持 MySQL 中 的 DATE 类 型 ， 我们 将 其 转换 成 Hive 中 可 用 的 TIMESTAMP 类 型 。 在 把 Hive 数 据 重 新 
导 信 MySQL 数据 表 时 ， 我 们 却 遇 到 了 把 TIMESTAMP 类 型 的 数据 插入 DATE 数 据 列 的 问题 。 在 不 进 
行 数据 转换 的 情况 下 ， 这 是 无 法 实现 的 。 

这 两 个 例子 给 我 们 的 启发 就 是 , 单 向 数据 转换 只 对 单 向 数据 流 有 效 。 一 旦 需要 进行 双向 数据 
传输 ，Hive 和 关系 数据 库 之 间 的 数据 类 型 不 匹配 问题 会 带 来 很 多 麻烦 ,必须 在 数据 传输 之 前 首先 
进行 数据 类 型 转换 。 

































































9.16 ”实践 环节 : 改进 mapper 并 重新 运行 数据 导出 命令 

但 是 , 这 次 我 们 不 再 进行 数据 类 型 转换 , 而 要 做 一 些 更 有 意义 的 事 一 一 使 用 Hive 和 MySQL 
都 支持 的 数据 类 型 修改 employees 数据 表 的 定义 。 

(1) 启动 mysql 命令 行程 序 。 


$ mysql -u hadoopuser -p hadooptest 
Enter password: 


(2) 修改 start date 列 的 数据 类 型 ; 
mysql» alter table employees modify column start date timestamp; 
上 述 命令 的 执行 结果 如 下 。 


Query OK, 0 rows affected (0.02 sec) 
Records: 0 Duplicates: 0 Warnings: 0 


(3) 输出 employees 数据 表 的 定义 。 


mysql> describe employees; 
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C — ——————À 
| first name | c | No | PRI | NULL 
| dept | r(15) | YES | | NULL 
| salary pi s | | NULL 
| start_date | time: | | CURRENT TIMESTAMP | on update CURRENT TIMESTAMP 
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(4) 退出 mysql 程序 。 
mysql» quit; 
(5) 执行 Sqoop 导出 命令 。 


Sqoop export --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser -P -table employees 

--export-dir /user/hive/warehouse/employees 
--input-fields-terminated-by '\001' 
--input-lines-terminated-by '\n' 


上 述 命令 的 执行 结果 如 下 。 


12/05/27 09:17:39 INFO mapreduce.ExportJobBase: Exported 10 
records. 


(6) 检查 MySQL 数据 库 中 的 记录 总 数 。 


$ echo "select count(*) from employees" 
| mysql -u hadoopuser -p hadooptest 


上 述 命令 的 执行 结果 如 下 所 示 。 


Enter password: 
count (*) 
10 


原理 分 析 


在 最 后 一 次 执行 Sqoop 导 出 命令 之 前 ， 我 们 使 用 mysql 命 令 行 工具 连接 数据 库 ， 并 修改 了 
start_date 列 的 数据 类 型 。 当 然 ， 千 万 不 能 随便 在 生产 系统 中 执行 这 样 的 修改 ， 但 由 于 我 们 使 
用 的 空白 的 测试 数据 表 ， 因 此 不 会 带 来 什么 问题 。 

















9.17 在 AWS 上 使 用 Sqoop 269 





在 完成 这 些 修改 之 后 ， 我 们 重新 运行 Sqoop 导 出 任务 ， 这 一 次 终于 成 功 了 。 

Sqoop 的 其 他 功能 

Sqoop 还 有 许多 其 他 功能 。 虽 然 我 们 不 再 详细 讨论 这 些 内 容 ， 但 仍 要 强调 一 下 它们 ， 以 便 感 
兴趣 的 读者 在 Sqoop 文 档 中 查阅 相关 内 容 。 

e 增 量 合并 

一 直 以 来 , 我 们 接触 的 示例 都 是 比较 极端 的 。 确实, 我 们 遇 到 的 大 多 数 情况 都 是 向 空白 数据 
表 导 入 数据 。 目 前 也 介绍 了 一 些 处 理 增 量 数据 的 方法 ,但 Sqoop 提 供 了 其 他 针对 持续 的 数据 导入 
任务 的 支持 。 

Sqoop 提 出 了 增 量 导入 的 概念 。 举 个 例子 来 说 明 它 的 含义 ， 如 果 数 据 导入 任务 与 日 期 有 关 ， 只 
有 某 天 之 后 的 记录 才 会 被 导入 。 这 就 需要 使 用 包括 Sqoop 在 内 的 工具 构建 一 个 长 期 运行 的 工作 流 。 

e 避免 部 分 导出 

我 们 已 经 发 现 ， 把 Hadoop 数 据 导 出 到 关系 数据 库 时 有 可 能 会 出 现 错误 。 在 我 们 的 例子 中 ， 
这 个 问题 没什么 大 不 了 的 , 因为 该 错误 导致 所 有 记录 都 无 法 导出 。 但 往往 会 出 现 导 出 部 分 数据 之 
后 ， 导 出 任务 却 中 途 出 现 故 障 的 情况 ， 这 时 数据 库 中 只 插入 了 部 分 数据 。 

Sqoop 使 用 分 段 表 来 消除 这 个 风险 ， 它 把 所 有 数据 导入 这 个 二 级 表 ， 只 有 成 功 插入 所 有 数据 
后 , 才 会 使 用 一 次 事务 把 分 段 表 的 数据 全 部 移 到 主 表 中 。 该 方案 对 可 靠 性 较 差 的 工作 负载 非常 有 
Ak, 却 也 带 来 了 一 些 重要 的 限制 ,例如 它 不 支持 更 新 模式 。 对 数据 量 很 大 的 导入 任务 ， 由 于 使 用 
了 一 个 长 时 间 运 行 的 事务 ， 也 会 对 关系 数据 库 的 性 能 和 负荷 带 来 影响 。 

@ 使 用 Sqoop 作 为 代码 生成 器 

我 们 一 直 都 忽视 了 Sqoop 运 行 过 程 中 出 现 的 一 个 错误 ， 刚 才 还 偶然 遇 到 了 这 类 错误 
Sqoop 所 需 代码 早已 存在 而 抛 出 的 异常 。 

在 执行 数据 导入 任务 时 ，Sqoop 会 生成 Jave 类 文件 ， 通 过 这 些 Java 代 码 来 访问 文件 中 的 字段 
和 记录 。Sqoop 在 内 部 使 用 这 些 类 ， 但 这 些 代码 并 非 只 能 用 于 Sqoop 调 用 。 事 实 上 ， 通 过 Sqoop 的 
codegen 命 令 ， 可 以 在 数据 导出 任务 结束 之 后 重新 生成 任务 用 到 的 Java 类 。 












































由 于 





























9.17 在 AWS 上 使 用 Sqoop 


截至 目前 ， 本章 还 未 提 及 AWS， 这 是 因为 Sqoop 在 AWS 上 的 运行 情况 并 无 特别 之 人 处。 我们 可 
以 在 EC2 主 机 上 运行 Sqoop， 就 像 是 在 本 地 主机 上 运行 Sqoop 一 样 。 而 且 ， 运 行 在 EC2 主 机 上 的 
Sqoop 既 可 以 访问 手工 创建 的 Hadoop 集 群 ， 也 可 以 访问 EMR 托 管 的 Hadoop 和 集群 。 如 果 需 要 的 话 ， 
还 可 以 在 这 些 Hadoop 集 群 上 运行 Hive。 唯 一 需要 考虑 的 问题 是 安全 组 访问 策略 ( security group 
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access )， 因 为 许多 默认 的 EC2 配 置 选项 拒绝 多 数 关 系数 据 库 使 用 的 端口 (MySQL 的 默认 端口 是 
3306) 发 起 的 连接 。 但 是 ， 与 Hadoop 集 群 和 MySQL 数 据 库 分 别 位 于 防火 墙 或 其 他 网 络 安全 边界 
的 两 端 相 比 ， 这 根本 就 不 是 什么 问题 。 

















使 用 RDS 


以 前 ， 我 们 从 没 提 过 AWS 的 RDS ( Relational Database Service ， 关 系数 据 库 服务 )， 但 现在 很 
有 必要 介绍 一 下 它 。RDS 提 供 了 托管 在 云端 的 关系 数据 库 ,用 户 可 以 根据 需要 选用 MySQL , Oracle 
和 Microsoft SQL Server。 使 用 RDS 服 务 ， 用 户 不 必 再 为 数据 库 的 安装 、 配 置 、 管 理 而 耗费 精力 ， 
而 且 可 以 通过 RDS 控 制 台 或 命令 行 工 具 启 动 数据 库 实例 。 用 户 执 行使 用 数据 库 客户 端 打开 数据 库 
即 可 创建 数据 表 ， 并 操作 数据 。 


组 合 使 用 RDS 和 EMR 更 能 充分 发 挥 它 们 的 强大 作用 ， 这 些 托管 服务 省 去 了 手动 管理 服务 顺 集 
群 的 麻烦 。 如 果 读 者 要 用 到 关系 数据 库 , 而 又 不 想 在 数据 库 管理 方面 浪费 精力 , 可 以 尝试 使 用 RDS。 


如 果 读 者 使 用 EC2 主 机 生成 数据 , 或 在 S3 中 存储 数据 , 那么 组 合 使 用 RDS 和 EMR 的 效果 更 为 
明显 。Amazon 公 司 有 一 个 通用 规则 ， 在 相同 主机 上 ， 用 户 可 以 免费 在 不 同 服务 之 间 传 输 数 据 。 
因此 ， 用 户 可 以 使 用 一 批 EC2 主 机 生成 大 量 数据 ， 然 后 把 它们 插入 RDS 关 系数 据 库 以 便 查询 ， 并 
把 它们 存储 在 EMR 作 为 档案 进行 长 期 分 析 。 把 数据 导入 存储 系统 和 处 理 系统 通常 很 有 挑战 性 , 经 
常会 付出 极 大 的 代价 ,尤其 是 需要 在 不 同 商用 系统 中 移动 数据 的 时 候 。 使 用 EC2、RDS 和 EMR 相 
互 配合 ， 可 以 减低 这 些 成 本 。 













































































9.18 小 结 


本 章 介 绍 了 Hadoop 和 关系 数据 库 的 集成 使 用 。 特 别 是 ， 我 们 研究 了 最 常用 的 案例 ， 并 发 现 
Hadoop 和 关系 数据 库 都 是 广 受 赞誉 的 技术 。 我 们 想 了 几 种 从 关系 数据 库 向 HDFS 导 出 数据 的 办 
法 ， 并 意识 到 文本 主键 无 法 实现 数据 分 段 ， 并 且 需 要 特别 考虑 如 何 处 理 长 时 间 运 行 的 任务 。 


接着 ， 我 们 介绍 了 Sqoop。 这 是 Cloudera 公 司 捐献 给 Apache 软 件 基金 会 的 一 个 工具 ， 它 提供 
了 实现 上 述 数 据 移动 的 框架 。 使 用 Sqoop 可 以 实现 从 MySQL 向 HDFS 或 Hive 的 数据 导入 ， 但 我 们 
必须 考虑 数据 类 型 是 否 兼 容 的 问题 。Sqoop 还 可 以 实现 相反 操作 ， 也 就 是 把 数据 从 HDFS 导 入 
MySQL 数 据 库 。 该 过 程 要 考虑 更 多 问题 ， 简 单 来 讲 ， 包 括 文件 格式 的 问题 ,插入 数据 与 更 新 数 
据 的 区 别 ， 以 及 Sqoop 兼 容 性 的 问题 。 此 外 ， 还 介绍 了 Sqoop 的 代码 生成 和 增 量 合 并 功能 。 


关系 数据 库 在 大 多 数 IT 基 础 设施 中 处 于 重要 地 位 , 其 至 是 十 分 关键 的 。 但 是 , 并 不 等 于 系统 


中 的 其 他 组 件 并 不 重要 。 最 近 ， 有 个 问题 变 得 日 益 突 出 , 那 就 是 网 页 服务 器 和 其 他 应 用 程序 生成 
的 日 志文 件 越 来 越 多 。 下 一 章 我 们 将 介绍 Hadoop 如 何 存储 并 处 理 这 些 日 志 数 据 。 
























































使 用 Flume 收 集 数 据 











前 两 章 ， 我 们 介绍 了 Hive 和 Sqoop 为 Hadoop 实 现 的 类 似 关系 数据 库 的 接 
um, 使 用 它们 可 以 与 “真正 的 ”数据 库 交 换 数 据 。 尽 管 这 是 非常 常见 的 情况 ， 
但 我 们 一 定 还 会 遇 到 想 把 许多 不 同类 别 的 源 数据 导入 Hadoop 的 情况 。 


本 章 包括 以 下 内 容 : 


口 Hadoop 通 常 处理 的 数据 类 别 ; 

口 把 数据 导入 Hadoop 的 简单 方法 ; 

口 Apache Flume 为 何 会 简化 数据 导 和 任务 ; 

口 由 简 到 繁 的 Flume 配 置 ; 

口 需要 考虑 的 非 技术 问题 ， 如 数据 的 生命 周期 。 








10.1 XT AWS 的 说 明 


全 书 中 ， 本 章 涉 及 AWS 的 内 容 最 少 。 实 际 上 ， 除 本 市 之 外 ， 本 前 基 本 不 涉及 AWS 的 内 容 。 
Amazon 没 有 提供 类 似 Flume 的 服务 ， 因 此 不 存在 专 为 AWS 实 现 的 类 似 产 品 可 供 研究 。 另 一 方面 ， 
无 论 在 本 地 主机 或 是 EC2 虚 拟 机 上 运行 Flume， 其 工作 原理 完全 相同 。 因 此 ， 本 章 其 余部 分 不 再 
对 示例 的 运行 环境 提 任 何 要 求 ， 它 们 在 任何 环境 中 的 运行 完全 相同 。 














10.2 无 处 不 在 的 数据 


在 讨论 Hadoop 与 其 他 系统 的 集成 问题 的 时 候 ， 很 容易 把 它 想 成 一 对 一 的 模式 。 数 据 从 一 个 
系统 中 流出 ， 经 过 Hadoop 系 统 的 处 理 ， 然 后 被 传 给 另 一 个 系统 。 


最 初 的 时 候 , 事情 可 能 确实 如 此 , 但 实际 情况 往往 是 , 要 用 一 系列 相互 配合 的 部 件 循环 往复 
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地 处 理 数据 。 本 章 关注 的 核心 问题 是 如 何 构建 这 种 可 维护 的 复杂 网 络 。 


10.2.1 数据 类 别 
为 了 便于 讨论 ， 我 们 把 数据 分 成 以 下 两 大 类 。 


口 网 络 流量 : 数据 由 某 个 系统 生成 并 通过 网 络 连 接 进 行 传输 。 
口 文件 数据 : 数据 由 某 个 系统 生成 并 被 写 和 文件 系统 上 的 文件 。 


我 们 认为 ， 这 两 类 数据 的 区 别 仅仅 在 于 数据 获取 方式 不 同 。 




















10.2.2 把 网 络 流量 导入 Hadoop 


我 们 讲 的 网 络 数据 ， 指 的 是 通过 HTTP 连 接 从 网 络 服务 器 获取 的 信息 ， 通 过 客户 端 应 用 程序 
获取 的 数据 库 内 容 , 或 者 通过 数据 总 线 发 送 的 消息 。 在 以 上 各 种 情况 中 , 要 么 是 通过 客户 端 应 用 
程序 从 网 络 上 获取 数据 ， 要 么 通过 监听 某 个 端口 等 待 数据 。 











安装 了 该 软件 ， 要 是 还 没 安装 的 话 ， 请 提前 安装 。 


| ŞS 接 下 来 的 几 个 例子 中 ， 我 们 会 使 用 cur1 程 序 接收 或 发 送 网 络 数据 。 确 保 主 
机 上 已 


10.3 ”实践 环节 : 把 网 络 服务 器 数据 导入 Hadoop 
接 下 来 ， 我 们 将 介绍 如 何 简单 地 把 网 络 服务 器 数据 找 贝 至 Hadoop。 
(1) 从 NameNode 的 网 页 接口 获取 文本 数据 ， 并 把 它 保 存 到 一 个 本 地 文件 。 

$ curl localhost:50070 > web.txt 
Q) 查看 文件 大 小 。 

$ ls -ldh web.txt 

上 述 命令 的 执行 结果 如 下 。 

-rw-r--r-- 1 hadoop hadoop 246 Aug 19 08:53 web.txt 
(3) 把 该 文件 拷贝 到 HDFS。 

$ hadoop fs -put web.txt web.txt 
(4) 查看 HDFS 上 的 文件 副本 。 


$ hadoop fs -1s 
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Found 1 items 
-rw-r--r-- 1 hadoop supergroup 246 2012-08-19 08:53 / 
user/hadoop/web.txt 


原理 分 析 


上 例 并 没 讲 到 什么 新 奇 的 内 容 。 我 们 使 用 cur1 程 序 从 内 置 的 网 页 服务 器 获取 NameNode 网 页 
接口 的 页 面 内 容 ， 并 把 它 保存 为 一 个 本 地 文件 。 我 们 检查 了 文件 大 小 ， 把 它 拷贝 至 HDFS， 并 验 
证 文件 拷贝 成 功 。 

这 一 系列 操作 本 身 并 不 值得 特别 关注 一 一 它 无 非 是 第 2 章 曾 用 过 的 hadoop fs 命令 的 另 一 种 
用 法 。 真 正 值得 关注 的 是 采用 这 种 模式 的 原因 。 

尽管 我 们 可 以 通过 HTTP 协 议 访问 网 络 服务 上 的 数据 , 但 可 直接 使 用 的 Hadoop 工 具 都 是 基于 
文件 的 ， 并 不 支持 这 种 远程 的 信息 源 。 这 就 是 我 们 需要 先 把 网 络 数据 拷贝 到 文件 中 ,然后 上 传 到 
HDFS 的 原因 。 

当然 , 我 们 可 以 通过 第 3 章 讲 到 的 编程 接口 直接 把 数据 写 人 HDFS , 这 种 方法 也 会 成 功 ,但 是 ， 
这 种 方法 需要 用 户 为 每 个 不 同 的 网 络 数据 源 编 写 定 制 的 客户 端 。 
































一 展 身手 


通过 编程 获取 数据 并 把 它 写 入 HDFS 是 一 种 很 强 的 能 力 ， 值 得 我 们 研究 Apache 
HTTPClient 是 一 种 非常 流行 的 HTTP Java 库 ， 它 是 HTTP Components 项 目的 一 部 分 ， 其 网 址 
为 http:/hc.apache.org/httpcomponents-client-ga/index.html。 


像 刚才 那样 ， 使 用 HTTPClient 和 HDFS 的 Java 接 口 获取 网 页 ， 并 把 它 写 信 HDFS 。 


10.3.1 把 文件 导入 Hadoop 


上 例 介绍 了 最 简单 的 把 文件 数据 导入 Hadoop 的 方法 , 以 及 标准 命令 行 工具 或 编程 API 的 使 用 
方法 。 本 闻 没 什么 要 特别 讨论 的 内 容 ， 因 为 本 书 从 始 至 终 都 在 处 理 这 种 问题 。 





10.3.2 ”潜在 的 问题 


尽管 上 述 方法 并 无 不 妥 ， 能 够 正常 工作 ， 但 它们 也 存在 一 些 问 题 ， 导 致 它们 不 适用 于 
产品 。 
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1. 把 网 络 数据 保留 在 网 络 上 


先 把 网 络 数据 拷贝 到 本 地 文件 ， 然 后 把 本 地 文件 放 到 HDFS 上 的 方法 会 影响 系统 的 性 能 。 由 
于 要 访问 两 次 硬盘 ,而 硬盘 恰恰 是 系统 中 效率 最 低 的 部 件 , 这 就 带 来 了 额外 的 时 延 。 如 果 一 次 调 
用 可 以 获取 大 量 数据 ， 延 时 可 能 不 是 个 大 问题 , 但 此 时 硬盘 空间 就 成 为 需要 考虑 的 问题 。 但 对 于 
多 次 少量 数据 的 调用 ， 延 时 就 是 个 不 得 不 考虑 的 问题 。 


2. 对 Hadoop 的 依赖 


对 基于 文件 的 方案 而 言 ， 上述 模 型 的 一 个 隐 含 条 件 是 , 在 我 们 访问 文件 的 时 候 必 须 首 先 获 知 
集群 位 置 并 获得 Hadoop 的 访问 权限 。 这 就 潜在 地 增加 了 系统 依赖 性 一 一 我 们 不 得 不 把 Hadoop 集 
群 的 位 置 告 诉 负责 下 载 网 页 文件 的 主机 , 它 本 来 是 不 需要 知道 任何 关于 Hadoop 集 群 信息 的 。 有 一 
个 办 法 可 以 部 分 解决 这 个 问题 , 那 就 是 使 用 SFTP 这 样 的 工具 把 获取 到 的 文件 保存 在 Hadoop-aware 
主机 上 ， 然 后 再 把 它 复制 到 HDFS。 



































3. 可 靠 性 

读者 可 能 会 注意 到 , 上 述 方法 完全 没有 提 到 错误 处 理 机 制 。 我 们 使 用 的 这 些 工具 都 没有 实现 
内 在 的 出 错 重 试 机 制 ,这 就 意味 着 ,我 们 需要 在 每 次 获取 数据 时 都 设计 一 种 错误 检查 和 重 试 机 制 。 

4. 多 此 一 举 

这 些 特殊 方法 的 最 大 问题 在 于 , 目前 存在 大 量 的 实现 类 似 任务 的 命令 行 工 具 和 脚本 。 重复 实 
现 这 些 工 具 ， 以 及 复杂 的 错误 跟踪 所 付出 的 的 代价 会 随 着 时 间 日 益 凸 显 。 

5. 一 种 通用 的 框架 


做 过 企业 计算 化 的 人 都 知道 ,最 好 用 通用 集成 框架 来 解决 这 个 问题 ,这 种 思路 是 非常 正确 的 ， 
并 且 现 在 确实 存在 一 款 业 界 熟知 的 产品 ， 它 就 是 EAI (Enterprise Application Integration ， 企 业 应 
用 集成 )。 

我 们 需要 的 就 是 一 种 有 Hadoop 知 识 并 易于 与 Hadoop 及 相关 项 目 整 合 的 框架 ， 无需 用 户 投 入 
大 量 精力 编写 定制 的 转换 程序 。 用 户 可 以 自行 实现 这 种 框架 ,但 接 下 来 我们 将 介绍 Apache 
Flume， 它 提供 了 我 们 想 要 的 大 部 分 功能 。 















































10.4 Apache Flume 简介 

















FlumeZé 23 —3X 5j Hadoop X AERAJ Apache H, HERH Jj http://flume.apache.orgo WER] 
余部 分 将 主要 学 习 该 项 目 。 


在 介绍 Flume 功 能 之 前 ， 我 们 先 要 清楚 它 无 法 实现 哪些 功能 。Flume 被 描述 为 分 布 式 的 日 志 
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收集 系统 , 也 就 是 说 , 它 处 理 的 是 基于 文本 行 的 文本 数据 。 它 并 不 是 一 个 通用 的 分 布 式 数据 平台 ， 
特别 是 ， 别 指望 用 它 获取 或 传输 二 进 制 数据 。 

但 是 ， 由 于 Hadoop 处 理 的 绝 大 部 分 数据 都 与 上 述 描 述 相符 ,很 可 能 Flume 可 以 满足 读者 的 大 
部 分 数据 获取 需求 。 





























Flume 也 不 是 一 个 通用 的 数据 序列 化 框架 ,例如 第 5 章 曾 用 到 的 Avro、Thrift 
和 Protocol Buffers。 我 们 将 会 看 到 ，Flume 设 定 了 几 种 数据 格式 ， 除 这 些 格式 之 
外 ， 它 无 法 实现 其 他 的 数据 序列 化 任务 。 





Flume 可 以 从 多 个 数据 源 获取 数据 ， 把 这 些 数据 传 给 远程 主机 (可 能 是 一 对 多 或 流水 线 模型 
中 的 多 个 目标 ), 再 把 它们 传 给 多 个 目的 端 。 尽 管 Flume 提 供 了 开发 自 定义 数据 源 和 数据 目的 端的 
编程 API， 但 它 原 本 就 支持 许多 常见 的 场景 。 下 面 ， 我 们 通过 安装 使 用 Flume 来 学 习 其 功能 。 


























关于 版 本 的 说 明 


近期 ，Flume 项 目 发 生 了 几 个 主要 的 变动 。 原 来 的 Flume ( 现在 更 名 为 Flume OG ， 意 为 原始 
版 本 ) 被 Flume NG ( Next Generation ) 所 取代 。 尽 管 两 个 版 本 的 基本 原则 和 功能 非常 相似 ,但 在 
实现 上 却 存 在 较 大 差异 。 


因为 Flume NG 的 使 用 会 越 来 越 广泛 ， 本 书 将 重点 介绍 它 的 相关 知识 。 在 一 段 时 间 内 ，Flume 
NG 在 某 些 方面 不 如 Flume 0G 成 熟 ， 因 此 ， 如 果 Flume NG 无 法 满足 读者 的 某 些 需求 ， 可 以 试 试 
Flume OG。 








10.5 “实践 环节 : 安装 并 配置 Flume 
本 节 介 绍 Flume 的 下 载 、 安 装 和 配置 。 
(1) 从 http://flume.apache.org/ 下 载 最 新 版 的 Flume NG 二 进 制 文件 ， 把 它 保 存 到 本 地 文件 系统 。 
(2) 把 文件 复制 到 目标 位 置 并 解压 。 


$ mv apache-flume-1.2.0-bin.tar.gz /opt 
$ tar -xzf /opt/apache-flume-1.2.0-bin.tar.gz 


(3) 创建 符号 链接 ， 指 向 Flume 安 装 路 径 。 
$ ln -s /opt/apache-flume-1.2.0 /opt/flume 


(4) 定义 环境 变量 FLUME_HOME。 
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Export FLUME HOME-/opt/flume 
(5) 把 Flume 安 装 路 径 下 的 bin 子 目录 添加 到 用 户 路 径 中 。 
Export PATH=$ {FLUME HOME)/bin:$(PATH) 
(6) 验证 已 设置 了 JAVA_HOME 变 量 。 
Echo $(JAVA HOME) 
(7) 验证 已 把 Hadoop 函 数 库 路 径 加 入 到 CLASSPRATH 变 量 中 。 
$ echo $(CLASSPATH) 
(8) 在 Hadoop 目 录 下 创建 Flume 的 conf 路 径 。 
$ mkdir /home/hadoop/flume/conf 
(9) 把 所 需 的 文件 拷贝 到 刚 创建 的 conf 目 录 中 。 
$ cp /opt/flume/conf/log4j.properties /home/hadoop/flume/conf 
$ cp /opt/flume/conf/flume-env.sh.sample /home/hadoop/flume/conf/ 


flume-env.sh 


(10) 编辑 Elume-env. sh 并 设置 JAVA_HOME。 


原理 分 析 
Flume 的 安装 过 程 较为 简单 ， 与 我 们 以 前 安装 过 的 其 他 几 个 工具 类 似 。 


首先 ， 获 取 Flume NG 的 最 新 版 本 ( 1.2.x 及 之 后 的 版 本 都 行 ) 并 保存 到 本 地 文件 系统 。 然 后 
把 它 复制 到 目标 位 置 ， 解 压缩 并 为 了 方便 创建 一 个 符号 链接 。 


我 们 需要 定义 FLUME_HOME 环 境 变量 ， 并 把 安装 目录 下 的 bin 文 件 夹 添加 到 环境 变量 。 和 以 
前 一 样 ， 这 些 设置 都 可 以 直接 在 命令 行 或 脚本 文件 中 实现 。 

Flume 要 求 本 机 已 设置 JAVA_HOME 环 境 变量 ， 本 例 中 我 们 通过 echo 命 令 来 确认 。Flume 还 要 用 到 
Hadoop 函 数 库 ， 因 此 需要 检查 CLASSPATH 环 境 变 量 的 值 ,确认 其 中 已 包含 了 Hadoop 消 数 库 的 目录 。 

对 于 演示 来 讲 ， 最 后 几 个 步 又 并 非 必需 的 ， 但 在 产品 集群 中 却 会 用 到 它们 。Flume 会 搜索 配 
mute, 其 中 包含 定义 了 默认 日 志 属 性 和 环境 变量 的 文件 。 我 们 发 现 , 在 正确 设置 配置 路 径 的 情 
况 下 ，Flume 会 运行 得 更 好 ， 所 以 我 们 先 创建 了 该 目录 ， 以 后 就 无 需 改动 了 。 

我 们 假设 /home/hadoop/flume 就 是 Flume 的 工作 路 人 径 ，Flume 配 置 文件 和 其 他 文件 将 存储 
在 该 路 径 下 。 读 者 可 根据 自己 系统 的 实际 情况 改变 该 路 径 。 
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使 用 Flume 采 集 网 络 数据 
上 一 节 我 们 已 安装 了 Flume， 本 节 将 用 它 采 集 一 些 网 络 数据 。 


10.6 ”实践 环节 : 把 网 络 流量 存 入 日 志文 件 


在 第 一 个 例子 中 ,我 们 将 使 用 简单 的 Flume 配 置 ， 把 采集 到 的 网 络 数据 存 入 主要 的 Flume 日 
志文 件 。 


(1) 把 下 列 内 容 存 入 agent1.conf 文 件 ， 并 保存 到 Flume 的 工作 目录 下 。 


agent1.sources = netsource 
agenti.sinks = logsink 
agentil.channels = memorychannel 


agentl.sources.netsource.type = netcat 
agenti.sources.netsource.bind = localhost 
agenti.sources.netsource.port 3000 


agentil.sinks.logsink.type = logger 
agentl.channels.memorychannel.type = memory 
agenti.channels.memorychannel.capacity = 1000 


agenti.channels.memorychannel.transactionCapacity = 100 


agenti.sources.netsource.channels = memorychannel 
agenti.sinks.logsink.channel = memorychannel 


(2) 启动 一 个 Flume 代 理 。 
$ flume-ng agent --conf conf --conf-file 10a.conf --name agenti 


该 命令 的 执行 结果 如 下 图 所 示 。 
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(3) 在 另 一 个 窗口 中 ， 远 程 连 接 至 本 地 主机 的 3000 端 口 ， 然 后 输入 一 些 文本 。 
$ curl telnet://localhost:3000 
Hello 
OK 
Flume! 
OK 


(4) 使 用 Ctrl +C 关 闭 curl 连 接 。 


(5) 查看 Flume 日 志文 件 。 
$ tail flume.log 
该 命令 的 执行 结果 如 下 所 示 。 


2012-08-19 00:37:32,702 INFO sink.LoggerSink: Event: ( headers:() 


body: 68 65 6C 6C 6F Hello ) 
2012-08-19 00:37:32,702 INFO sink.LoggerSink: Event: { headers: {} 
body: 6D 65 Flume ) 
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原理 分 析 


首先 ， 我 们 在 Flume 工 作 目 录 下 创建 了 一 个 配置 文件 。 稍 后 会 详细 解释 Flume 的 配置 文件 ， 
但 现在 ， 假 设 Flume 从 一 个 称 为 信 源 (source) 的 部 件 接收 数据 ， 并 把 它 写 入 称 为 信 宿 (sink) 的 
目的 地 。 


本 例 中 ， 我 们 创建 了 一 个 Netcat 信 源 ， 它 监听 某 个 端口 上 的 网 络 连 接 。 本 例 中 ,假设 其 监听 
的 是 本 地 主机 的 3000 端 口 。 


我 们 设置 的 信 宿 为 1ogger 类 型 ， 它 会 把 输出 写 人 一 个 日 志文 件 。 配 置 文件 的 剩余 部 分 定义 
了 一 个 名 为 agent1 的 代理 ， 它 会 用 到 上 述 信 源 和 信和 宿 。 


接着 ， 我 们 使 用 flume-ng 可 执行 文件 启动 一 个 Flume 代 理 。 我 们 将 使 用 该 工具 启动 所 有 
Flume 进 程 。 请 注意 ， 该 命令 有 下 列 几 个 选项 


口 agent 参 数 指定 Flume 启 动 一 个 代理 ， 它 泛 指 正在 运行 的 涉及 数据 传输 的 Flume 进 程 ; 
口 conf 路 径 ， 之 前 已 提 到 过 其 含义 ; 

口 针对 待 启动 进程 的 特殊 配置 文件 ; 

口 配置 文件 里 设置 的 代理 名 称 。 


代理 启动 之 后 不 久 就 会 在 屏幕 上 输出 其 运行 结果 。( 很 明显 ， 我 们 可 以 根据 产品 集群 的 需要 
进行 配置 ， 并 在 后 台 运 行 该 程序 )。 
在 另 一 个 窗口 中 ， 我 们 使 用 curl 软 件 远程 连接 至 本 地 主机 的 3000 端 口 。 打 开 这 种 远程 连接 会 


话 的 传统 方式 是 使 用 celnet 程 序 ， 但 许多 Linux 系 统 中 都 默认 安装 了 cur1， 基 本 上 没 人 会 再 用 
telnet 程 序 。 


我 们 每 行 输入 一 个 词 ， 并 按 下 回 车 键 ， 然 后 使 用 “Ctrl + C” 命 令 关闭 远程 会 话 。 最 后 ,我 
们 查看 位 于 Flume 工 作 目 录 下 的 flume .1og 文 件 内 容 ， 从 中 发 现 了 我 们 输入 的 所 有 单词 。 
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在 某 些 情况 下 ,查看 日 志文 件 的 内 容 并 不 是 很 方便 ， 尤其 是 在 已 经 打开 代理 窗口 的 时 候 。 接 
下 来 ， 我 们 修改 设置 ， 将 日 志 同 时 输出 到 代理 窗口 。 

(1) 启动 Flume 代 理 的 时 候 新 加 一 个 参数 。 


$ flume-ng agent --conf conf --conf-file 10a.conf --name agent1 
-Dflume.root.logger-INFO,console 


该 命令 的 执行 结果 如 下 所 示 。 
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Info: Sourcing environment configuration script /home/hadoop/ 
flume/conf/flume-env.sh 

org.apache.flume.node.Application --conf-file 10a.conf --name 
agenti 


2012-08-19 00:41:45,462 (main) [INFO - org.apache.flume.lifecycle. 
LifecycleSupervisor.start(LifecycleSupervisor.java:67)] Starting 
lifecycle supervisor 1 


(2) 在 另 一 个 窗口 中 ， 通 过 cur1 程 序 连接 服务 器 。 


$ curl telnet://localhost:3000 


(3) 分 两 行 输入 Hello 和 Flume， 按 下 “Ctrl1+C” 组 合 键 ， 然 后 查看 代理 窗口 。 


了 





Ble Edt View Tormnal Help 
7)] node manager starting 
2013-01-08 13:15:25,848 (lifecycleSupervisor-1-0) [INFO - org.apache, f lume. lifecycle. Li Pecyclesupervisor .start(Li fecyclesupervisaor,java:67)]. Starting Vifecyc 
le supervisor 8 

[2013-01-06 13:15:25,846 (lifecyclesuparvisor-1-1) [INFO - org.apache.flume.conf , file. AbstractFi leConf1gurationProvider .start(AbstractFi leConfi gurationProvide 
|r.]ava:67)] Configuration provider starting 

la013-01-06 13:15:25,890 (conf-file-poller-O) [INFO - orq.apache.flume.conf. file. Abstract leConfigurationProvider gri LewatcherRunnable.run(Abstractki leConf 1 gu 
lrationProvider.java:195)] Reloading configuration file:lQa.conf 

[2013.01.08 13:15:25,865 (conf: file.poller.0) [INFO - arg.apache. flume, conf .FlumeConf i gurationgAgentCont 1 gurat 0n. addProper ty (FLumeCond 1 guration, java:588]] Pr 
cessing:logsirk 

[2013.01.06 13:15:25,867 (comf.fila.poller.O) [INFO , org.aparche.fluma.cant .FlumeCenf1guratiengAgentConi: gurat:on. addProperty (FLumeConi1guration.]ava:o88)] Pr 
locessing: logsa nk. 

lo13.01-06 13:15:25,857 (conf-file-poller-O) [INFO - org.ápacha. flume.conf.FlumeconfigurationgAgentConfi guratión. addproparty (Flumecanfi guratión.java:e2)] ad 
led sinks: logink Agent: agenti 

[2013.01.06 13:18:25,925 (conf. file. poller.0) [INEO - org.upache. f lume. conf .FlumeConf i gurati on. vali dateConf i gurati on(FlumeConfi guration. j4va:122)] Post- valida 
ition flume configuration contains configuration for agents: [agentl] 

[2013-01-06 12:15:25,927 [conf-file.poll ) I1NFO - org.apache.flume.conf .propsrties,.PropertiesP1 leConfigurationProvi dar , LoadChannels (Propertiesf1leConfigur 
ltionProvider,java:249)] Creating channels 

[2013.01.06 13:15:25,018 (conf.file.poller.0) 【INFO - arq.apache. flume.instrumentation.Moai toredCounterGroup. «ini t»(Moni toredCnunterGroup.]avat6B)] Manitoried 
counter group for type: CHANE, nam: memorychannel, registered successfully. 

[2013-01-06 13:15:26,018 (conf-file-poller-O) [INFO - org.apsche, flume.conf .properties.PropertiesFileConfigurationProvider,loadChannels (PropertiesFi leConf i gur 
latzonProvider.)ava:273)] created channel memorychannel 

l2013-01-06 13:15:26,039 (conf-file-poller-O) [INFO - org.apache.flume.sink.DefaultSinkFactory.create[DefaultSinkFactory.]ava:70)] Creating instance of sink: 
llogeink, type: logger 

|z013.01- 06 13:15:26,054 (conf-file-poller. 0) [INFO - org. apache. f lume node .nodemanager Def aul tLogi calodeManager a tar cALl Components (Def aul t.ogi cal NadeManager 
java:92)] Starting new configurationt( sourceRunnere:(netecurcezEventOrivenSourceRunner: ( source:org.apache. f lume. source.NetcatSource(Md9O243 )) einkPunner 
Is: (logsinkeSinkPunner: { policy:org.apache.flume.sink.DefaultsinkProcessorüd376e0 counterGroup:( name:null coumters:() ) 2) channels:(memorychannelsorg.apach 
je. f lume. channel. MemoryChannelo17490c9) } 

2013-01-06 13:15:26,055 (conf-file-poller-O) [1NFO - org.apache.flume,node.nodemanager ,Daf aul tLogi ca UNodeManager , &tar t Al lCosponents (Def aul tLogi ca NodeManager 
.jàva:99)] Starting Channel semorychannel 

leo15.01-06 13:15:25,059 (lifecyclesupervisor: 1.0) [INEO - org.apache, flume, instrumentation. Moni toredCounterGroup. star r (Mori toredcounrerroup. javaz&2)]. Compon 
Junt type: CHANNEL, nume: mmorychannel started 

[2013-01-06 13:15:26,070 (conf-fila.peller-O) [IMFO - orq.apacha.flume.node.nodemanagar. Dat aul tLog1calNedeManager . startáll Components (Def aultLeaicalNodeManacer 
[]ava:127)] Starting Sank legsink 

|z013-01-06 13:15:26,073 (conf-file-poller-Q) |1NFO - org.apache.flume.node.nodesanager Det aul tLogi calNodeManáger , &tar tAL L Components (Def aul zLogi calNodeManager 
.java:138)] Starting Source netsource 

[2013.01.08 13:15:26,073 (lifecycleSupervisor-1-3) [INFO - org.apache, f lune. source. NetcatSource. start (NetcatSaurce, )àva:148)] Source starting 

[2013-01-06 13:15:26,093 (lifecycleSupervisor-1-3) [INFO - org.epache. f Lume. source. NetcotSource.stert(NetcatSource. java: 162)] Created serverSocket:sun.nio.ch. 
IserverSacketChanneltmpll/127.0.0.1:3000] 

z013-01-06 13:16:12,135 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.!lums.sink.LoggerSink.processiLoggerSink.java:70)] Event: ( header 
K:( body: 68 65 6c 6c & 00 hallo, ) 

la013.01- 06 13:16:12,134 [SinkRunner  PollingRunner- Def aultSi nk Proc 
b:() body: 65 6C 75 eD 65 00 flum, ) 


" 





























or) [INFO - org. apache, f lume. sieh Logger Sink . process (LoggerSink. javaz70)] Event: ( header | 














原理 分 析 
本 例 讲 到 的 用 法 在 调试 或 创建 新 数据 流 时 非常 有 用 。 
从 上 例 可 以 看 出 ， 默 认 情 况 下 ，FlIume 会 把 其 日 志 写 人 保存 在 文件 系统 的 文件 内 。 更 确切 地 
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说 ， 该 动作 是 由 conf 路 径 下 的 log4j 属 性 文件 指定 的 。 在 茶 些 情 况 下 ， 我 们 想 立 即 获 得 反 饿 ， 而 
无 需 经 常 查看 日 志文 件 或 改动 属性 文件 。 


在 命令 行 中 明确 设置 flume .root. logger% E, 就 可 以 重 写 日 志 模 块 的 默认 配置 ， 使 Flume 把 
输出 直接 发 送 给 代理 窗口 ,日 志 模 块 是 标准 的 log4j, 因此 它 支持 常用 的 日 志 等 级 ,例如 DEBUG 和 INFO。 


























把 网 络 数 据 写 入 日 志文 件 


在 默认 情况 下 ，Flume 信 和 宿 会 把 收 到 的 数据 写 人 日 志文 件 ， 这 种 方式 有 一 些 缺 点 ， 尤 其 是 当 
我 们 想 在 其 他 程序 中 使 用 这 些 数据 的 时 候 。 通过 设置 另 一 种 信 宿 , 我 们 可 以 把 数据 写 入 易 用 性 更 
强 的 数据 文件 。 




















—- 





10.8 ”实践 环节 : 把 命令 的 执行 结果 写 入 平面 文件 
本 节 将 介绍 一 种 新 的 信 源 类 型 并 在 实践 中 使 用 它 。 


(1) 在 Flume 的 工作 目录 下 新 建 agent2 .conf 文 件 ， 并 把 下 列 内 容 保存 到 该 文件 中 。 


agent2.sources = execsource 
agent2.sinks - filesink 
agent2.channels - filechannel 


agent2.sources.execsource.type - exec 
agent2.sources.execsource.command = cat /home/hadoop/message 


agent2.sinks.filesink.type - FILE ROLL 
agent2.sinks.filesink.sink.directory - /home/hadoop/flume/files 
agent2.sinks.filesink.sink.rollInterval = 0 


agent2.channels.filechannel.type = file 
agent2.channels.filechannel.checkpointDir = /home/hadoop/flume/fc/ 
checkpoint 

agent2.channels.filechannel.dataDirs - /home/hadoop/flume/fc/data 


agent2.sources.execsource.channels - filechannel 
agent2.sinks.filesink.channel - filechannel 


(2) 在 根 目录 下 创建 一 个 简单 的 测试 文件 。 
$ echo "Hello again Flume!" > /home/hadoop/message 


(3) 启动 代理 。 





$ flume-ng agent --conf conf --conf-file agent2.conf --name agent2 
(4) 在 另 一 个 窗口 中 ， 检 查 信 得 文件 的 输出 路 径 。 


$ ls files 
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$ cat files/* 


上 述 命令 的 结果 如 下 所 示 。 





m Trarcibra qa ev mm. 6 ~ 


EA 





File Edit View Terminal Help 


Hello again Flume! 
hadoop@vm16:~/flume$ ls files 
1357479289746- 1 


Hello again Flume! 
hadoop@vm16:~/fLume$ Bj 





hadoop@vm16:~/flume$ more /home/hadoop/message 


hadoop@vm16: ~/f Lume$ more files/1357479289746-1 








原理 分 析 


本 例 与 前 几 个 例子 的 工作 流程 类 似 。 我 们 先 为 Flume 代 理 创建 一 个 配置 文件 ， 接 着 运行 该 代 





理 ， 之 后 确认 它 抓 到 了 我 们 想 要 的 数据 。 




















这 次 我 们 用 的 是 exec 信 源 和 file_rol1 信 宿 。 顾 名 思 义 ，exec 信 源 在 主机 上 执行 一 个 命令 并 





将 捕获 的 输出 作为 Flume 代 理 的 输入 。 虽 然 在 上 例 中 ， 只 执行 了 





次 命令 ， 但 这 只 是 为 了 演示 其 








原理 。 更 为 常见 的 情况 是 , 代码 中 用 到 多 条 命令 以 生成 持续 的 数据 流 。 需 要 注意 的 是 , 读者 可 以 





对 exec 信 和 宿 进 行 配 置 ， 使 其 在 命令 终止 的 时 候 重 启 命令 。 


Flume 代 理 的 输出 被 写 和 人 配置 文件 的 输出 文件 中 。 默 认 情况 下 ，Flume 每 隔 30 秒 钟 将 输出 滚 
动 写 入 到 一 个 新 文件 中 。 为 了 便于 在 单个 文件 中 跟踪 Flume 的 输出 ， 我 们 关闭 了 上 述 功 能 。 


我 们 发 现 ， 输 出 文件 中 确实 包含 指定 的 exec 命 令 的 输出 内 容 。 





日 志 信 宿 与 文件 信 宿 


读者 可 能 会 对 Flume 中 同时 存在 日 志 信 和 宿 和 文件 信 宿 感到 困惑 。 从 概念 来 讲 ， 它 们 完成 的 任 
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务 完全 相同 ,那么 区 别 在 什么 地 方 呢 ? 


实际 上 ，logger 信 宿 比 其 他 信 宿 更 适合 用 作 调 试 工具 。 它 不 仅仅 记录 Flume 捕 获 的 信 源 信息 ， 
同时 加 入 了 许多 元 数据 和 事件 。 然而 , 文件 信 宿 准确 地 记录 输入 数据 , 因为 这 些 数据 在 传 给 Flume 
时 没有 发 后 任何 变化 〈 如 果 需 要 修改 数据 ， 这 也 是 可 以 实现 的 ， 稍 后 会 看 到 这 种 情况 )。 


在 大 多 数 情况 下 , 读者 想 用 文件 信和 宿 捕 获 输 入 数据 , 但 在 开发 过 程 中 也 可 能 会 根据 需要 用 到 
H Sei fH o 











10.90 实践 环节 : 把 远程 文件 数据 写 入 本 地 平面 文件 


本 节 将 展示 另 一 个 把 数据 写 入 文件 信 宿 的 例子 。 这 次 ， 我 们 会 用 到 Flume 的 另 一 个 功能 
从 远程 客户 端 接收 数据 。 





(1) 把 下 列 内 容 保 存 到 Flume 工 作 目 录 下 的 agent3 .conf 文 件 中 。 


agent3.sources = avrosource 
agent3.sinks - filesink 
agent3.channels - jdbcchannel 


agent3.sources.avrosource.type - avro 
agent3.sources.avrosource.bind - localhost 
agent3.sources.avrosource.port - 4000 
agent3.sources.avrosource.threads - 5 
agent3.sinks.filesink.type - FILE ROLL 
agent3.sinks.filesink.sink.directory - /home/hadoop/flume/files 
agent3.sinks.filesink.sink.rollInterval - 0 


agent3.channels.jdbcchannel.type - jdbc 


agent3.sources.avrosource.channels - jdbcchannel 
agent3.sinks.filesink.channel - jdbcchannel 


(2) 创建 新 测试 文件 /home/hadoop/message2。 

Hello from Avro! 
(3) 启动 Flume 代 理 。 

$ flume-ng agent -conf conf -conf-file agent3.conf -name agent3 
(4) 在 另 一 个 窗口 中 ， 使 用 Flume Avro 客户 端 向 agent3 发 送 文件 。 


$ flume-ng avro-client -H localhost -p 4000 -F /home/hadoop/ 
message 


(5) 和 以 前 一 样 ， 检 查 输出 路 径 中 的 文件 内 容 。 





284 第 10 章 使 用 Flume 收集 数据 





$ cat files/* 





Be Edit yew Terminal Help 


mor vom /hadoo 














原理 分 析 


和 以 前 一 样 ， 我 们 新 建 一 个 配置 文件 。 这 次 ， 我 们 使 用 的 是 Avro 信 源 。 回 忆 一 下 ， 第 5 章 曾 
讲 到 ，Avro 是 一 个 数据 序列 化 框架 ， 也 就 是 说 ， 它 负责 对 数据 进行 封包 ,并 把 数据 从 网 络 中 的 一 
个 地 方 传 到 另 一 个 地 方 。 与 Netcat 信 源 类 似 ，Avro 信 源 对 网 络 参数 进行 配置 。 本 例 中 ， 它 会 监听 
本 地 主机 的 4000 端 口 。 我 们 配置 代理 使 用 文件 信 宿 ， 之 后 启动 该 代理 。 








Flume 既 会 用 到 Avro 信 源 ， 也 会 用 到 独立 的 Avro 客户 端 。 后 者 可 用 于 读 取 文 件 内 容 并 把 它 发 
给 网 络 上 任何 位 置 的 Avro 信 源 。 在 本 例 中 , 我 们 使 用 本 地 主机 作为 Avro 信 源 , 但 要 注意 的 是 , Avro 
客户 端 需要 准确 知道 Avro 信 源 的 主机 名 和 端口 号 。 因 此 ,这 并 不 是 一 个 限制 因素 ，Avro 客 户 端 可 
以 把 文件 发 给 网 络 上 任何 位 置 的 处 于 监听 状态 的 Flume Avro 信 源 。 


Avro 客户 端 读 取 文件 内 容 ， 把 它 发 给 Flume 代 理 ， 而 代理 会 把 这 些 数 据 写 入 文件 信 宿 。 通 过 
检查 输出 文件 的 内 容 ， 我 们 确认 Flume 运 作 正 常 。 
10.9.1 ” 信 源 、 信 和 宿 和 信道 


我 们 故意 在 前 儿 个 例子 中 使 用 了 多 种 信 源 、 信 和 宿 和 信道 , 目的 仅 是 为 了 说 明 组 合 使 用 这 些 部 
件 。 但 是 ,我 们 没有 详细 研究 它们 ， 尤 其 是 信道 。 现 在 ,我 们 将 深入 研究 这 些 内 容 。 
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1. 信 源 


我 们 已 经 学 习 了 三 种 信 源 : Netcat，exec ( 可 执行 文件 ) 以 及 Avro。Flume NG 还 支持 使 用 一 
种 序列 生成 器 作为 信 源 ( 主要 用 于 测试 ), 以 及 读 取 syslogd 数 据 的 信 源 ( 既 支 持 TCP 也 支持 UDP )。 
我 们 在 代理 中 配置 信 源 ， 信 源 在 接收 到 足够 数据 可 以 生成 一 个 Flume 事 件 时 ， 它 会 把 新 创建 的 事 
件 发 给 信道 。 尽 管 信 源 的 逻辑 可 能 与 它 读 取 数 据 、 转 化 事件 以 及 处 理 故 障 的 方式 有 关 , 但 它 却 对 
事件 的 存储 方式 一 无 所 知 。 信 源 负责 把 事件 传 给 用 户 设 置 的 信道 , 但 如 何 处 理事 件 却 是 对 信 源 不 
可 见 的 。 



































2. 信 宿 


除 之 前 用 到 的 logger 和 fle roll 信 宿 之 外 ，Flume 还 支持 HDFS HBase ( 两 种 类 型 )、Avro (用 
于 代理 链 )、null ( 用 于 测试 ARC (用 于 互联 网 中 继 聊天 服务 ) 这 几 种 信 宿 。 从 概念 上 来 讲 ， 
言 宿 与 信 源 的 概念 正好 相反 。 


言 宿 等 着 从 信道 接收 事件 , 但 它 对 信道 的 内 部 工作 原理 一 无 所 知 。 在 接收 到 数据 后 , 信和 宿 会 
把 事件 分 发 给 各 自 的 目标 主机 ， 并 负责 人 处理 超时 、 重 试 以 及 循环 之 类 的 问题 。 


3. 信道 


那么 ,这些 连 接着 信 源 和 信 宿 的 神奇 信道 究竟 是 什么 呢 ? 就 像 名 字 和 前 面 介绍 的 配置 条 目 显 
示 的 那样 ， 它 们 是 负责 传输 事件 的 通信 机 制 和 保留 机 制 。 


当 我 们 定义 信 源 和 信道 时 ， 它 们 在 如 何 读 取 和 写 人 数据 方面 有 较 大 差异 。 例 如 ，exec 信 源 
接收 数据 的 速率 远 快 于 file_roll 信 宿 的 写 和 速度, 或 者 信 源 有 了 时 需要 和 暂停 数据 写 入 ( 例如 在 切换 
到 新 文件 的 时 候 ， 或 处 理 系统 IO 阻塞 的 时 候 )。 因此， 信道 需要 在 信 源 和 信道 之 间 缓 存 数据 ， 
这 样 才能 使 数据 最 有 效 地 流 过 代理 。 这 也 是 配置 文件 的 信道 配置 部 分 包括 容量 之 类 的 配置 元 素 
的 原因 。 


memory 信 道 是 最 容易 理解 的 一 种 信道 类 型 ， 因 为 代理 从 信 源 把 事件 读 入 内存， 然后 传 给 信 
宿 。 但 如 果 代 理 进程 在 该 过 程 中 途 由 于 软件 或 硬件 故障 而 骨 溃 ,那么 此 时 memory 信 道中 的 所 有 
数据 都 会 永久 丢失 。 


我 们 用 过 的 fle 和 JDBC 信 道 会 永久 存储 事件 ,以 防 这 种 意外 的 数据 丢失 。 在 从 信 源 读 取 事件 
之 后 ，file 信 道 将 事件 内 容 写 入 文件 系统 上 的 文件 ， 只 有 代理 成 功 将 事件 传 给 信 窒 后， 该 文件 才 
会 被 删除 。 类 似 地 ，JDBC 信 道 使 用 一 个 内 腐 的 Derby 数 据 库 以 可 恢复 的 形式 存储 事件 。 


这 是 一 种 典型 的 性 能 和 可 靠 性 之 间 的 权衡 问题 。memory 信 道 效 率 最 高 ， 但 有 数据 丢失 的 风 
险 。file 和 JDBC 信 道 的 效率 相对 较 低 ， 但 能 保证 把 数据 传 给 信 宿 。 具 体 选用 哪 种 信道 取决 于 应 用 
程序 以 及 每 个 事件 的 价值 。 
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l 别 在 这 个 问题 上 太 费 心思 。 在 实际 使 用 中 ， 答 案 通 常 是 很 明显 的 。 同 时 也 要 
仔细 考虑 用 到 的 信 源 和 信 宿 的 可 靠 性 。 如 果 它们 都 靠不住 , 会 丢失 一 些 事件 ， 于 
还 有 必要 使 用 永久 信道 吗 ? 


4. 定制 信 源 、 信 道 和 信 宿 


读者 可 能 会 认为 现 有 的 信 源 、 信 道 和 信和 窒 太 少 了 ， 千 万 别 这 么 想 。Flume 提 供 了 一 个 自 定义 
信 源 、 信 道 、 信 宿 的 接口 。 男 外 ，Flume 0G 的 一 部 分 组 件 还 没有 迁移 到 Flume NG 中 ， 但 它们 述 
时 会 出 现在 Flume NG 中 的 。 








10.9.2 ”Flume 配置 文件 


上 一 节 , 我 们 已 经 讨论 了 信 源 、 信 和 宿 和 信道 。 接 下 来 , 我 们 将 详细 研究 一 个 以 前 用 过 的 配置 
文件 。 
agenti.sources = netsource 


agent1.sinks = logsink 
agenti.channels = memorychannel 


上 述 这 些 行 指定 了 代理 的 名 称 , 并 定义 了 与 之 相关 的 信 源 、 信 和 宿 和 信道 。 每 一 行 都 可 以 有 多 
个 值 ， 这 些 值 以 空格 为 分 隔 符 。 











agenti.sources.netsource.type = netcat 
agenti.sources.netsource.bind = localhost 
agenti.sources.netsource.port = 3000 








上 述 行 设 置 了 信 源 的 各 个 属性 。 因 为 我 们 使 用 了 Netcat 信 源 ， 配 置 项 的 值 指定 了 绑 定 网 络 的 
方式 。 不 同类 型 的 信 源 有 其 自身 独 有 的 配置 变量 。 











agenti.sinks.logsink.type = logger 


这 行 指定 了 我 们 要 用 的 logger 信 宿 ， 其 具体 设置 将 通过 命令 行 或 log4j 必 性 文件 实现 。 





agentl.channels.memorychannel.type = memory 
agenti.channels.memorychannel.capacity = 1000 
agenti.channels.memorychannel.transactionCapacity = 100 

These lines specify the channel to be used and then add the type 
specific configuration values. In this case we are using the memory 
channel and we specify its capacity but - since it is non-persistent - 
no external storage mechanism. 

agentl.sources.netsource.channels = memorychannel 
agenti.sinks.logsink.channel = memorychannel 


最 后 几 行 设置 了 信 源 和 信 宿 要 用 到 的 信道 。 尽 管 不 同 的 代理 要 使 用 不 同 的 配置 文件 , 但 为 了 
简便 也 可 以 在 一 个 配置 文件 中 完成 多 个 代理 的 设置 , 因为 各 个 代理 之 间 会 实现 必要 的 分 隔 。 但 是 ， 
这 会 使 配置 文件 显得 非常 繁琐 ， 可 能 会 吓 坏 Flume 的 初学 者 。 某 个 代理 也 可 以 包含 多 个 流 ,， 例 如 ， 
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我 们 可 以 把 前 两 个 例子 合并 到 同一 个 配置 文件 和 代理 。 
一 展 身手 


动手 实现 它 吧 ! 把 agent1 和 agent2 合 并 为 一 个 代理 , 并 创建 一 个 配置 文件 完成 下 列 设置 。 
口 使 用 Netcat 信 源 和 logger 信 往 。 

口 使 用 exec 信 源 和 file 信 和 宿 。 

口 分 别 为 上 述 信 源 信和 宿 对 实现 一 个 memory 信 道 。 





为 了 帮助 读者 顺利 起 步 ， 作 者 给 出 一 些 定义 作为 示例 。 
agentx.sources - netsource execsource 


agentx.sinks - logsink filesink 
agentx.channels = memorychannell memorychannel2 


10.9.3 ”一切 都 以 事件 为 核心 
在 学 习 新 例子 之 前 ， 我 们 再 讨论 一 个 概念 。 究 竟 什 么 是 事件 呢 ? 


回忆 一 下 ，Flume 显 然 以 日 志文 件 为 基础 ， 那 么 在 大 多 数 情 况 下 ， 事 件 就 相当 于 一 行 接 一 行 
的 文本 。 我 们 曾 在 信 源 和 信 宿 中 看 到 过 这 样 的 数据 。 


但 是 ， 事 件 并 非 全 部 是 文本 数据 。 例 如 ，UDP syslogd 信 源 把 接收 到 的 每 个 数据 包 当 做 一 个 
事件 ,并 在 系统 中 传输 。 在 使 用 这 种 类 型 的 信 源 和 信 宿 时 ， 对 事件 的 定义 保持 不 变 ， 而 当 读 取 文 
件 时 ， 我 们 不 得 不 使 用 基于 文本 行 的 事件 概念 。 























10.10 “实践 环节 : 把 网 络 数据 写 入 HDFS 
在 专门 研究 Hadoop 的 书 中 讨论 Flume， 但 至 今 为 止 却 尚未 介绍 如 何在 Hadoop 中 使 用 Flume， 
多 少 有 点 不 太 合适 。 接 下 来 ， 我 们 将 要 介绍 如 何 把 数据 写 入 HDFS 。 
(1) 在 Flume 工 作 目 录 下 新 建 agent4.conf 文 件 ， 并 把 以 下 内 容 保 存 到 该 文件 中 。 
agent4.sources - netsource 


agent4.sinks = hdfssink 
agent4.channels - memorychannel 


agent4.sources.netsource.type - netcat 
agent4.sources.netsource.bind - localhost 
agent4.sources.netsource.port = 3000 


agent4.sinks.hdfssink.type - hdfs 
agent4.sinks.hdfssink.hdfs.path - /flume 
agent4.sinks.hdfssink.hdfs.filePrefix = log 
agent4.sinks.hdfssink.hdfs.rollInterval = 0 
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agent4.sinks.hdfssink.hdfs.rollCount = 3 
agent4.sinks.hdfssink.hdfs.fileType = DataStream 


agent4.channels.memorychannel.type - memory 


agent4.channels.memorychannel.capacity - 1000 
agent4.channels.memorychannel.transactionCapacity - 100 


agent4.sources.netsource.channels - memorychannel 
agent4.sinks.hdfssink.channel = memorychannel 


(2) 启动 代理 。 





$ flume-ng agent -conf conf -conf-file agent4.conf -name agent4 
(3) 在 另 一 个 窗口 中 ， 开 启 一 个 远程 连接 并 向 Flume 发 送 7 个 事件 。 

$ curl telnet://localhost:3000 
(4) 查看 输出 目录 中 的 文件 ， 并 检查 文件 内 容 。 


$ hadoop fs -ls /flume 
$ hadoop fs -cat "/flume/*" 


上 述 命令 的 执行 结果 如 下 图 所 示 。 


(e radians 











Elaka 








File Edit View Terminal Help 
hadoop@vm16:~$ curl telnet://localhost:3000 E 
Hello 


^C 

hadoopavml18:-$ hadoop fs -ls /flume 
Found 3 items 

-nw-r--r-- 1 hadoop supergroup 
-Dw-r--r-- 1 hadoop supergroup 
-rw-r--r-- 1 hadoop supergroup 
hadoopüvml6:-$ hadoop fs -cat "/flume/*" 
Hello 

Hadoop 

how 

are 

you ` 
today? 


adoop@vm16: 


2013-01-06 14:37 /flume/log-.1357483063181 
2013-01-06 14:37 /flume/log-.1357483063182 
2013-01-06 14:37 /flume/log-.1357483063183.tmp 


nu 
ou 
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原理 分 析 


这 次 ， 我 们 使 用 的 是 Netcat 信 源 和 HDFS 信 道 。 从 配置 文件 中 可 以 看 出 ， 我 们 需要 设置 文件 
位 置 、 文 件 前 缀 以 及 从 某 个 文件 切换 到 为 一 个 文件 的 策略 等 内 容 。 本 例 中 ， 我 们 指明 文件 位 于 
/flume 目 录 下 ， 每 个 文件 都 以 log- 为 前 级 ， 并 且 每 个 文件 最 多 只 能 存储 3 条 数据 (很 明显 ， 这 
么 少 的 数据 只 能 用 于 测试 )。 


在 启动 代理 后 ， 我 们 再 次 使 用 curl 向 Flume 发 送 7 个 事件 ， 每 个 事件 仅 包 含 1 个 单词 。 接 着 ， 
我 们 使 用 Hadoop 命 令 行 工 具 查 看 /flume 目 录 并 验证 输入 数据 被 写 人 HDFS。 


请 注意 , 第 三 个 HDFS 文 件 扩展 名 为 .tmp。 回 忆 一 下 , 我 们 设置 的 是 每 个 文件 包含 3 条 记录 ， 
但 仅 输入 7 个 值 。 因 此 ， 有 2 个 文件 已 达到 其 数据 容量 ， 而 第 3 个 文件 则 刚刚 开始 。Flume 用 . tmp 
后 级 标记 正在 写 入 的 文件 ,这 就 一 眼 能 区 分 出 完整 文件 和 正在 写 入 的 文件 ， 而 MapReduce 作 业 只 
人 处理 完整 文件 。 
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前 面 我 们 曾 提 到 Flume 提 供 了 一 些 机 制 ， 用 于 写 入 稍微 复杂 的 文件 数据 。 本 节 ， 我 们 将 展示 
一 些 很 普通 的 做 法 把 动态 生成 的 时 间 蕉 和 数据 一 同 写 入 文件 。 


(1) 把 下 列 配 置 内 容 保 存 为 agent5.conf 文 件 。 


agent5.sources = netsource 
agent5.sinks - hdfssink 
agent5.channels - memorychannel 


agent5.sources.netsource.type - netcat 
agent5.sources.netsource.bind - localhost 
agent5.sources.netsource.port - 3000 
agent5.sources.netsource.interceptors - ts 


agent5.sources.netsource.interceptors.ts.type - org.apache.flume. 
interceptor.TimestampInterceptor$Builder 


agent5.sinks.hdfssink.type - hdfs 
agent5.sinks.hdfssink.hdfs.path = /flume-£Y-£m-£d 
agent5.sinks.hdfssink.hdfs.filePrefix - log- 
agent5.sinks.hdfssink.hdfs.rollInterval = 0 
agent5.sinks.hdfssink.hdfs.rollCount = 3 
agent5.sinks.hdfssink.hdfs.fileType - DataStream 


agent5.channels.memorychannel.type - memory 
agent5.channels.memorychannel.capacity - 1000 


agent5.channels.memorychannel.transactionCapacity - 100 


agent5.sources.netsource.channels - memorychannel 
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agent5.sinks.hdfssink.channel = memorychannel 
(2) 启动 代理 。 

$ flume-ng agent -conf conf -conf-file agent5.conf -name agent5 
(3) 在 另 一 个 窗口 中 ， 开 启 一 个 远程 连接 会 话 ， 并 向 Flume 发 送 7 个 事件 。 

$ curl telnet://localhost:3000 
(4) 查看 HDFS 上 的 输出 文件 。 

$ hadoop fs -1s / 


代码 输出 如 下 所 示 。 





= inita ens mE 
glo Ed yew Jarminal Help 






Qvm16;-8 cur telnet: //localhost: 3000 

















原理 分 析 


该 


我 们 对 上 一 个 配置 文件 进行 了 一 些 改动 ,为 Netcat 信 源 新 加 一 个 interceptor 属 性 ,并 指定 
盟 性 值 为 rimestampInterceptor。 
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Flume 拦 截 器 其 实 就 是 一 些 搬 件 ， 它 们 可 以 在 从 信 源 向 信 宿 传输 事件 的 过 程 中 操作 和 修改 事 
件 。 大 多 数 拦截 器 要么 在 原 事件 的 基础 上 加 入 一 些 元 数据 〈 本 例 即 是 这 种 情况 )， 要 么 基于 某 些 
规则 删 去 一 些 事 件 。 除 了 几 个 内 置 的 拦截 器 外 ，Flume 还 提供 了 用 户 自 定义 拦截 器 的 机 制 。 


本 例 中 我 们 使 用 timestamp 拦 截 咽 ， 它 在 事件 元 数据 的 基础 上 附加 了 读 取 事件 时 的 Unix 时 间 
戳 。 通 过 这 种 方式 ， 我 们 扩展 了 写 人 事件 的 HDFS 路 径 的 名 称 。 


前 几 个 例子 中 ， 我 们 只 是 把 所 有 事件 写 人 /flume 路 径 ， 本 例 中 ， 我 们 把 事件 的 写 人 路 径 设 
置 为 /flume-%Y-%m-%d。 在 运行 代理 并 向 Flume 发 送 一 些 数据 之 后 ， 我 们 查看 HDFS， 发 现 事 件 
输出 路 径 带 有 “年 /月 /日 ”这 样 的 词缀 。 


HDFS 信 宿 支 持 许多 其 他 变量 ， 例 如 信 源 的 主机 名 以 及 其 他 临时 变量 ， 使 用 这 些 临时 变量 可 
以 以 秒 为 单位 对 数据 进行 准确 分 块 。 


拦截 器 的 功能 非常 明显 。 之 前 ， 代 理 将 所 有 事件 写 和 人 同一 个 信 宿 路 径 ， 这 样 随 着 时 间 推 移 ， 
该 目录 变 得 越 来 越 大 。 而 使 用 拦截 器 之 后 ,不 仅 可 以 实现 数据 的 自动 分 块 ， 简 化 了 数据 管理 ， 而 
且 便 于 MapReduce 作 业 使 用 这 些 数据 。 例 如 ， 假 如 MapReduce 作 业 每 次 处 理 的 都 是 一 小 时 内 的 数 
据 ， 那 么 就 可 以 在 Flume 中 把 输入 事件 按 小 时 分 块 ， 写 和 不同 路 径 ， 这 样 就 会 极 大 简化 该 过 程 。 

准确 的 说 ， 拦 截 器 为 Flume 中 传输 的 事件 添加 了 完整 的 Unix 时 间 戳 ， 也 就 是 说 ， 该 时 间 戳 可 
以 精确 到 秒 。 本 例 中 , 我 们 在 路 径 名 中 只 用 到 了 和 日 期 相关 的 部 分 ,如 果 读 者 需要 以 小 时 或 更 细 
粒度 对 数据 进行 分 块 ， 那 么 就 会 用 到 与 时 间 相 关 的 变量 。 













































































上 述 内 容 假设 处 理事 件 时 的 时 间 惟 足以 满足 读者 需求 .假如 一 批文 件 同时 被 处 
S 理 并 反馈 到 Flume 系 统 ， 那 么 文件 数据 的 时 间 惟 应 该 是 另 一 个 时 间 ， 而 不 是 它们 被 
处 理 的 时 间 。 在 此 情况 下 ， 读 者 需要 编写 自 定义 拦截 器 基于 文件 内 容 设 置 时 间 惟 。 


使 用 Sqoop 还 是 使 用 Flume 


如 果 读 者 需要 把 关系 数据 库 中 的 数据 导出 到 HDFS 上 , 那么 gqoop 和 Flume 这 两 个 工具 哪个 更 
合适 ?我 们 已 经 了 解 了 Sqoop 如 何 执行 导出 任务 , 使 用 Flume 也 可 以 完成 类 似 任务 : 既 可 以 编写 自 
定义 代码 也 可 以 在 exec 信 源 中 调用 mysql 命 令 


最 好 根据 数据 类 型 选择 。 要 导出 的 数据 是 日 志 数 据 吗 ? 还 是 更 复杂 的 数据 ? 


在 很 大 程度 上 ，Flume 被 设计 用 于 处 理 日 志 数 据 ， 事 实证 明 ， 它 擅长 处 理 这 类 数据 。 但 在 大 
多 数 情况 下 ，Flume 网 络 负责 把 事件 从 信 源 传 到 信和 宿 ， 却 不 会 真正 传输 日 志 数 据 本 身 。 如 果 用 户 
在 多 个 关系 数据 库 中 存 有 日 志 数 据 ， 使 用 Flume 应 该 是 个 不 错 的 选择 ， 尽 管 我 会 怀疑 数据 库 是 否 
有 能 力 长 期 存储 日 志 记 录 。 
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非 日 志 数 据 可 能 需要 执行 一 些 只 有 Sqoop 才 能 完成 的 数据 操作 。 上 一 章 我 们 使 用 Sqoop 完 成 
的 许多 数据 转换 ， 例 如 指定 目标 列 的 子 集 ， 无 法 使 用 Flume 完 成 。 还 有 ， 如 果 用 户 需 要 处 理 结构 
化 数据 的 各 个 字段 ， 单 独 使 用 Flume 也 无 法 完成 这 个 任务 。 如 果 读 者 想 要 与 Hive 集 成 ， 那 么 此 时 
Sqoop 是 唯一 的 选择 。 


当然 ， 请 记 住 ， 这 些 工 具 还 可 以 协同 处 理 更 复杂 的 任务 。 我 们 可 以 使 用 Flume 把 事件 汇聚 到 
HDFS， 使 用 MapReduce 进 行 处 理 ， 然 后 通过 Sqoop 导 出 到 一 个 关系 数据 库 中 。 















































10.12 ”实践 环节 : 多 层 Flume 网 络 
本 节 我 们 将 实践 如 何 使 用 一 个 Flume 代 理 作 为 另 一 个 代理 的 信 宿 。 


(1) 把 下 列 内 容 保 存 到 agent6.conf 文 件 。 


agent6.sources = avrosource 
agent6.sinks - avrosink 
agent6.channels - memorychannel 


agent6.sources.avrosource.type - avro 
agent6.sources.avrosource.bind - localhost 
agent6.sources.avrosource.port - 2000 
agent6.sources.avrosource.threads - 5 


agent6.sinks.avrosink.type - avro 
agent6.sinks.avrosink.hostname - localhost 
agent6.sinks.avrosink.port - 4000 


agent6.channels.memorychannel.type - memory 
agent6.channels.memorychannel.capacity - 1000 
agent6.channels.memorychannel.transactionCapacity - 100 


agent6.sources.avrosource.channels - memorychannel 
agent6.sinks.avrosink.channel - memorychannel 


(2) 按照 agent3 .conf 的 配置 启动 一 个 代理 ， 也 就 是 说 ， 使 用 Avro 信 源 和 file 信 和 宿 。 
$ flume-ng client -conf conf -conf-file agent3.conf agent3 
(3) 在 第 二 个 窗口 中 ， 按 照 agent6.conf 的 配置 启动 另 一 个 代理 。 
$ flume-ng client -conf conf -conf-file agent6.conf agent6 
(4) 再 打开 一 个 窗口 ， 使 用 Avro 客户 端 分 别 向 上 述 两 个 代理 发 送 一 个 文件 。 
$ flume-ng avro-client -H localhost -p 4000 -F /home/hadoop/ 
message 


$ flume-ng avro-client -H localhost -p 2000 -F /home/hadoop/ 
message2 


(5) 检查 输出 路 径 ， 确 认输 出 文件 存在 于 该 目录 下 。 
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原理 分 析 


首先 , 我们 定义 了 一 个 新 代理 ， 其 信 源 和 信 宿 都 是 Avro 类 型 。 之 前 从 未 用 过 Avro 信 宿 ， 它 不 
会 把 事件 写 人 本 地 文件 或 HDFS 文 件 ， 而 是 把 事件 发 给 远程 Avro 信 源 。 


我 们 启动 agent6 代 理 之 后 ， 又 启动 了 一 个 前 几 节 用 过 的 代理 agent3。 回 忆 一 下 ，agent3 
使 用 Avro 信 源 和 fie roll 信 宿 。 我 们 将 第 一 个 代理 的 Avro 信和 宿 指向 第 二 个 代理 的 Acro 信 源 的 主机 
地 址 和 端口 ， 通 过 这 种 方式 构建 了 一 个 数据 链 路 。 


在 agent6 和 agent3 都 运行 起 来 后 , 我 们 使 用 Avro 客户 端 向 每 个 代理 发 送 一 个 文件 ,并 确认 
这 两 个 文件 都 存在 于 agent3 信 宿 指定 的 目录 下 。 


能 达到 这 个 效果 并 非 只 是 技术 原因 使 然 。 更 重要 的 原因 在 于 ，Flume 支 持 用 户 构建 非常 复杂 
的 分 布 式 事件 收集 网 络 。 我 们 可 以 认为 不 同类 型 的 多 个 代理 可 以 把 事件 传 给 链条 中 的 下 一 个 代 
理 ， 它 们 就 像 是 事件 汇集 点 一 样 。 
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10.13 ”实践 环节 : 把 事件 写 入 多 个 信 宿 
我 们 还 希望 构建 这 样 的 网 络 ， 一 个 代理 可 以 向 多 个 信 宿 写 入 数据 。 本 节 将 实现 它 。 
(1) 把 下 列 内 容 保 存 为 agent7.conf 文 件 。 


agent7.sources = netsource 
agent7.sinks = hdfssink filesink 
agent7.channels = memorychannell memorychannel2 


agent7.sources.netsource.type - netcat 
agent7.sources.netsource.bind - localhost 
agent7.sources.netsource.port - 3000 
agent7.sources.netsource.interceptors - ts 


agent7.sources.netsource.interceptors.ts.type - org.apache.flume. 
interceptor.TimestampInterceptor$Builder 


agent7.sinks.hdfssink.type - hdfs 
agent7.sinks.hdfssink.hdfs.path = /flume-$Y-$m-$d 
agent7.sinks.hdfssink.hdfs.filePrefix - log 
agent7.sinks.hdfssink.hdfs.rollInterval = 0 
agent7.sinks.hdfssink.hdfs.rollCount = 3 
agent7.sinks.hdfssink.hdfs.fileType - DataStream 





agent7.sinks.filesink.type - FILE ROLL 
agent7.sinks.filesink.sink.directory - /home/hadoop/flume/files 
agent7.sinks.filesink.sink.rollInterval - 0 





agent7.channels.memorychannell.type - memory 
agent7.channels.memorychannelil.capacity = 1000 
agent7.channels.memorychannell.transactionCapacity = 100 


agent7.channels.memorychannel2.type - memory 
agent7.channels.memorychannel2.capacity - 1000 


agent7.channels.memorychannel2.transactionCapacity 100 


agent7.sources.netsource.channels = memorychannell memorychannel2 
agent7.sinks.hdfssink.channel = memorychanneli 
agent7.sinks.filesink.channel - memorychannel2 





agent7.sources.netsource.selector.type - replicating 
(2) 启动 代理 agent7。 

$ flume-ng agent -conf conf -conf-file agent7.conf -name agent7 
(3) 开启 一 个 远程 会 话 连接 并 向 Flume 发 送 一 个 事件 。 

$ curl telnet://localhost:3000 


上 述 命令 的 执行 结果 如 下 所 示 。 
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Replicating! 
检查 HDFS 上 的 输出 目录 及 文件 信和 宿 的 内 容 。 


$ cat files/* 
$ hdfs fs -cat "/flume-*/*" 


上 述 命令 的 执行 结果 如 下 图 所 示 。 














原理 分 析 

我 们 创建 了 一 个 配置 文件 ,该 文件 设置 了 一 个 Netcat 信 源 ， 以 及 两 个 信 宿 ， 分 别 是 file 信 宿 和 
HDFS 信 宿 。 同 时 ， 还 设置 了 两 个 memory 信 道 分 别 连 接 信 源 和 两 个 信 宿 。 

接着 ， 我 们 设置 信 源 选择 器 的 类 型 为 replicating， 也 就 是 说 ， 所 有 事件 都 会 同时 发 送 给 
上 述 两 个 信道 。 像 往 常 一 样 启动 代理 并 向 信 源 发 送 一 个 事件 之 后 ， 我 们 确认 ， 该 事件 确实 被 同 
时 写 入 文件 系统 和 HDFS 信 和 宿 。 



































10.13.1 选择 器 的 类 型 


信 源 选择 器 有 两 种 工作 模式 , 一 种 是 replicating 模 式 , 男 一 种 是 multiplexing 模 式 。multiplexing 
模式 的 信 源 选择 器 会 依据 事件 的 特定 头 部 字段 值 判 断 向 哪个 信道 发 送 事件 。 











10.13.2 ” 信 宿 故障 处 理 


言 宿 作为 数据 输出 端 , 本 质 上 就 决定 了 它 可 能 随 着 时 间 推 移 会 逐渐 发 生 故 障 。 就 像 其 他 输入 
输出 设备 一 样 ， 信 宿 也 会 遇 到 写 人 速度 达到 上 限 、 存 储 空间 已 用 尽 或 者 脱 机 离线 的 问题 。 
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刚才 已 看 到 ，Flume 人 允许 信 源 使 用 选择 器 实现 事件 复制 或 复 用 。 与 此 类 似 ，Flume 提 出 了 信 
Tr REESE BS DEAS o 


Flume 定 义 了 两 种 信 宿 处 理 器 , 它们 分 别 是 故障 恢复 ( failover ) 信 宿 处 理 器 和 负载 均衡 (load 
balancing ) 信和 宿 处 理 器 。 


信 宿 处 理 器 把 所 有 信 宿 看 做 一 个 信 宿 组 , 它 会 依据 各 个 信 宿 的 类 型 在 事件 到 达 时 采取 不 同 的 
措施 。 负 载 均衡 信 宿 处 理 器 每 次 向 信 宿 发 送 一 个 事件 ， 它 采用 轮 询 (round-robin ) 或 随机 算法 选 
择 下 次 使 用 的 信 宿 。 如 果 某 个 信 宿 出 现 故 障 , 信和 宿 处 理 咒 会 向 男 一 个 信和 宿 发 送 相同 事件 , 但 发 生 
故障 的 信 宿 仍然 保留 在 信和 宿 池 中 。 


与 此 不 同 ,故障 恢复 信 宿 处 理 器 把 所 有 信 宿 视 为 一 个 优先 表 , 只 有 高 优先 级 信 宿 发 生 故 障 后 ， 
它 才 会 使 用 低 优先 级 信 宿 。 故 障 恢复 信 宿 处 理 器 会 从 优先 表 中 删除 发 生 故 障 的 信 宿 , 在 经 过 一 段 
冷却 期 后 重 试 该 信 宿 故障 是 否 修 复 ， 以 避免 后 续 的 大 量 故 障 。 





















































一 展 身手 : 信 宿 故障 处 理 


创建 一 个 包含 3 个 HDFS 信 和 宿 的 Flume 配 置 文 件 ， 每 个 信 宿 对 应 着 HDFS 上 的 不 同位 置 。 使 
用 负载 均衡 信 宿 处 理 器 ， 确 认 事 件 被 平均 写 到 每 个 信 宿 ， 然 后 使 用 故障 恢复 信 宿 处 理 器 ,展示 
各 个 信 宿 的 优先 级 。 


你 能 想 办 法 让 代理 选用 指定 信 宿 代替 优先 级 最 高 的 信 宿 吗 ? 


10.13.3 ”使 用 简单 元 件 搭建 复杂 系统 


目前 ， 我 们 已 经 学 习 了 Flume 的 大 部 分 关键 功能 。 以 前 曾 提 到 ，Flume 是 一 个 框架 ， 我 们 应 
当 认 真 考虑 这 个 说 法 。Flume 的 部 署 方式 非常 灵活 ， 我 们 曾 介绍 过 的 其 他 产品 都 无 法 与 之 相 比 。 


Flume 的 灵活 性 来 源 于 其 中 一 小 部 分 功能 。 通 过 信道 连接 信 源 和 信和 宿 ， 并 且 支 持 多 个 代理 和 
多 个 信道 ， 这 就 是 Flume 灵 活性 的 一 种 具体 表现 。 这 些 功 能 看 上 去 没什么 了 不 起 ， 但 这 些 模块 却 
可 以 用 来 构建 下 述 系统 ， 该 系统 能 把 多 个 网 页 服务 器 群 的 日 志 汇聚 到 一 个 Hadoop 集 群 。 


口 服务 器 群 中 的 每 个 节点 都 运行 一 个 代理 ， 负 责 依次 获取 所 有 的 本 地 日 志文 件 。 

口 这 些 日 志文 件 被 发 送 给 一 个 高 可 靠 性 的 汇聚 点 。 每 个 服务 器 群 中 都 有 一 个 汇聚 点 ， 负 责 
执行 一 些 处 理 任务 ， 并 在 原 事件 基础 上 附加 一 些 元 数据 ， 把 这 些 记录 分 成 3 类 。 

口 第 一 级 集合 器 把 事件 发 给 能 够 访问 Hadoop 集 群 的 一 个 代理 。 集 合 器 提供 了 多 个 访问 点 ，1 
类 事件 和 2 类 事件 被 发 给 第 一 级 聚合 器 ，3 类 事件 被 发 给 第 二 级 聚合 器 。 

a 最 后 一 级 聚合 器 把 1 类 事件 和 2 类 事件 写 入 HDFS 的 不 同位 置 ， 同 时 2 类 事件 也 被 写 人 到 本 
地 文件 系统 。3 类 事件 直接 写 人 HBase。 
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简单 的 元 件 就 能 组 合 搭 建 这 么 复杂 的 系统 ， 简 直 太 神奇 了 1! 





一 展 身手 :使 用 简单 元 件 搭建 复杂 系统 


作为 一 个 练习 题 ， 考 虑 一 下 如 何 实现 上 述 系 统 ， 并 确定 流程 中 每 一 步 要 用 到 怎样 的 Flume 
配置 。 


10.14 更 高 的 视角 


读者 需要 意识 到 ， 用 户 不 光 要 考虑 “简单 地 ”从 某 个 节点 向 另 一 个 节点 传输 数据 。 最 近 , 由 
于 某 些 原因 ， 数 据 的 生命 周期 管理 ( data lifecycle management ) 这 一 概念 被 广 为 使 用 。 接 下 来 ， 
在 系统 出 现 数据 泛滥 的 情况 之 前 ， 我 们 将 简要 介绍 一 些 需 要 用 户 考虑 的 问题 。 





10.14.1 数据 的 生命 周期 


关于 数据 生命 周期 的 主要 问题 是 , 数据 要 存储 多 久 其 价值 才能 超过 存储 成 本 。 永久 存储 数据 
看 似 极 具 吸 引力 , 但 随 着 时 间 推 移 ， 存 储 的 数据 量 越 来 越 大 ,存储 成 本 也 会 急剧 上 升 。 这 些 成 本 
不 单单 是 金钱 方面 的 成 本 。 随 着 数据 量 的 增长 ， 许 多 系统 的 性 能 也 会 逐步 降低 。 

关于 数据 存储 多 长 时 间 最 为 合适 ， 这 一 问题 的 答案 很 少 由 技术 因素 来 决定 。 相 反 ， 数 据 价值 
以 及 业务 成 本 才 是 决定 性 因素 。 有些 时 候 , 用 户 很 快 就 会 发 现 数据 毫 无 价值 。 在 男 一 些 情况 下 ,出 
于 竞争 或 法 律 原因 , 业务 无 法 删除 这 些 数据 。 确定 数据 在 业务 流程 中 所 处 地 位 , 然后 采取 相应 措施 。 
当然 , 一 定 要 记 住 ,保留 或 删除 数据 并 不 是 一 个 非 此 即 披 的 问题 。 用 户 还 可 以 随 着 数据 保留 
时 间 的 增长 ， 将 其 逐步 迁移 到 成 本 较 低 、 性 能 较 差 的 多 层 存 储 系统 中 。 





























10.14.2 和 集结 数据 

另 一 方面 , 读者 通常 需要 考虑 数据 是 如 何 送 入 MapReduce 这 类 数据 处 理 平台 的 。 由 于 使 用 了 
多 个 数据 源 ， 用 户 往 往 希 望 把 所 有 数据 都 放 在 同一 个 大 容量 存储 系统 中 。 

正如 我 们 之 前 所 看 到 的 ，Flume 可 以 用 参数 表示 HDFS 上 的 数据 写 入 位 置 ， 有 助 于 解决 这 个 
问题 。 但 是 ， 最 好 把 这 些 数据 写 入 位 置 视 为 临时 集结 区 ，Flume 会 先 把 数据 写 人 这 个 位 置 再 进行 
处 理 。 在 数据 处 理 结 束 之 后 ， 这 些 数据 会 被 移 到 长 期 日 录 结 构 。 





























10.14.3 ”调度 


在 很 多 情况 下 ， 我 们 曾 提 到 过 ，Flume 可 能 需要 一 个 外 部 任务 执行 某 些 操作 。 如 前 所 述 ， 
一 旦 文件 写 和 人 HDFS, 我 们 就 想 用 Flume 对 其 进行 处 理 , 但 是 该 任务 是 如 何 调度 执行 的 呢 ? 或 者 
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说 ， 我 们 如 何 进行 后 期 处 理 ， 如 何 对 数据 进行 存档 或 删除 老 数据 ， 甚 至 如 何 删除 源 主 机 上 的 日 
志文 件 ? 


Linux 系 统 提供 的 logrotate 工 具 可 以 调度 上 述 部 分 任务 ， 例 如 源 主机 上 的 日 志 删 除 工作 ， 但 
读者 需要 自行 创建 工具 实现 完成 其 他 任务 的 调度 工作 。 类 似 cron 这 样 的 常用 工具 就 能 完成 这 些 功 
能 , 但 随 着 系统 复杂 性 的 提升 ， 用户 需 要 寻找 其 他 更 复杂 的 调度 系统 。 下 一 章 , 我 们 将 会 简要 介 
绍 这 种 系统 与 Hadoop 的 集成 。 








10.15 h 


本 章 讨论 了 如 何 获 取 网 络 上 的 数据 ， 并 使 用 Hadoop 来 处 理 这 些 数据 。 我 们 发 现 ， 实 际 上 这 
是 一 个 很 常见 的 问题 。 尽 管 我 们 可 以 使 用 Hadoop 的 专属 工具 ， 如 Flume， 但 这 并 不 是 唯一 的 解决 
方案 。 我 们 特别 对 可 能 写 人 Hadoop 的 数据 进行 了 分 类 , 通常 把 它们 分 为 网 络 数据 和 文件 数据 。 我 
们 介绍 了 一 些 使 用 命令 行 工具 获取 数据 的 方法 。 尽 管 这 些 方法 确实 有 效 , 但 它们 太 过 简单 ， 并 不 
适合 更 复杂 的 情况 。 

我 们 把 Flume 视 为 一 个 可 灵活 使 用 的 框架 , 它 可 以 定义 和 管理 数据 ( 尤其 是 日 志文 件 ) 路 径 ， 
Flume 系 统 认为 数据 首先 达到 信 源 ， 经 过 信道 处 理 后 ， 被 写 人 信和 宿 。 

接着 ， 我 们 学 习 了 很 多 Flume 功 能 ， 包 括 如 何 使 用 不 同类 别 的 信 源 、 信 道 和 信 宿 。 从 中 可 以 
学 到 , 如 何 把 简单 的 功能 模块 组 合成 非常 复杂 的 系统 , 最 后 我 们 以 对 数据 管理 的 更 普遍 性 的 思考 
结束 本 章 内 容 。 


全 书 主要 内 容 到 此 结束 。 下 一 章 我 们 将 简要 介绍 读者 可 能 感 兴趣 的 大 量 其 他 项 目 , 并 强调 了 
一 些 加 入 Hadoop 开 发 者 社区 和 获得 帮助 的 方法 。 
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正如 书 名 所 述 ， 本 书目 的 在 于 向 初学 者 深入 介绍 Hadoop 相 关 知 识 及 其 应 
用 。 读 者 经 常会 发 现 ，Hadoop 生 态 系 统 的 范围 远 远 不 止 这 些 核心 产品 。 本 章 
我 们 将 快速 浏览 一 些 有 趣 的 应 用 。 





本 章 包 括 以 下 内 容 : 


口 总 结 本 书 涵盖 的 内 容 ; 

口 本 书 未 涉及 的 内 容 ; 

口 即将 发 生 的 Hadoop 变 革 ; 

a 其 他 版 本 的 Hadoop 软 件 安装 包 ; 
口 其 他 重要 的 Apache 项 目 ; 

口 其 他 程序 设计 方法 ; 

口 信息 来 源 及 帮助 。 





11.1 2# EM 


为 我 们 把 读者 群 设 定 为 Hadoop 初 学 者 ， 所 以 希望 初学 者 从 书 中 能 学 到 Hadoop 的 核心 概念 
和 工具 ， 为 今后 的 学 习 和 工作 打下 坚实 基础 。 而 且 ， 我 们 设计 了 一 些 实践 环节 ， 有 助 于 读者 把 
Hadoop 集 成 到 原 有 系统 架构 中 。 


尽管 起 初 Hadoop 只 是 一 个 独立 的 产品 ， 但 毫 不 客气 地 说 ， 近 年 来 以 Hadoop 为 中 心 的 生态 系 
统 呈 爆发 趋势 。 读 者 还 可 以 选用 其 他 版 本 的 软件 包 部 署 Hadoop, 有 些 版 本 的 软件 包 提供 了 定制 的 
商用 扩展 功能 。 目 前 , 以 Hadoop 为 基础 的 相关 项 目 和 应 用 实在 是 太 多 了 , 它们 要 么 实现 了 某 个 新 
功能 ,要 么 以 其 他 方式 实现 了 现 有 功能 。 赶 快 使 用 Hadoop 吧 ,这 真是 一 个 激动 人 心 的 时 刻 , 快 来 
看 看 还 有 些 什么 好 玩 的 东西 。 
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当然 ， 对 Hadoop 生 态 系统 的 概述 由 作者 的 兴趣 和 偏好 决定 ， 可 能 并 不 全 面 ， 
JS 而 且 涉及 的 相关 技术 和 应 用 在 写作 时 也 已 过 时 。 换 身 话 说 , PENNAR PHA 
的 东西 现在 全 都 能 用 ， 权 当 是 开胃 菜 好 了 。 


11.2 即将 到 来 的 Hadoop 变革 


在 讨论 其 他 版 本 的 Hadoop 软 件 安装 包 之 前 ， 我 们 先 来 看 看 Hadoop 将 要 发 生 的 一 些 变革 。 
我 们 曾 提 到 过 Hadoop 2.0 的 变化 ， 主 要 是 使 用 新 的 BackupNameNode 和 CheckpointNameNode 服 
务 提 高 了 NameNode 的 可 用 性 。 这 是 Hadoop 的 一 个 重大 变革 ， 因 为 它 能 增强 HDFS 的 健壮 性 ， 

极 大 地 提高 企业 信用 ， 并 能 实现 集群 操作 的 流水 化 。 再 怎么 夸大 NameNode HA 对 Hadoop 的 影 
响 都 不 为 过 ， 几 年 之 后 ， 人 们 甚至 会 想 ， 没 发 明 NameNode HA 技术 之 前 ，Hadoop 是 如 何 运 
作 的 。 


发 生 这 些 变 草 的 同时 ,MapReduce 也 不 是 一 成 不 变 的 。 实际 上 , 我 们 介绍 的 这 些 Hadoop 变 革 
不 可 能 带 来 太 多 的 直接 影响 ， 却 能 带 来 根本 上 的 改变 


最 初 ， 开 发 者 把 改进 后 的 Hadoop 称 为 MapReduce 2.0 或 MRV2。 但 是 ， 现 在 我 们 认为 YARN 
( Yet Another Resource Negotiator ) 这 个 名 称 更 为 贴切 ， 因 为 主要 变化 发 生 在 Hadoop 平 台 而 非 
MapReduce。YARN 的 目标 是 在 Hadoop 基 础 上 构建 一 个 集群 资源 分 配 平台 ， 可 以 为 某 些 应 用 分 配 
集群 资源 ， 而 MapReduce 只 是 这 些 应 用 中 的 一 种 。 


目前 ，JobTracker 负 责 两 项 不 同 的 任务 : 管理 某 一 MapReduce 作 业 的 进度 (也 要 确定 任意 时 
刻 处 于 空闲 状态 的 集群 资源 )， 以 及 在 作业 的 不 同 阶段 分 配 资源 。YARN 把 这 些 任务 分 给 了 几 个 
独立 的 组 件 。 一 个 全 局 的 ResourceManager 负 责 集群 资源 管理 , 它 通过 每 台 主 机 上 的 NodeManager 
实现 该 功能 ; 一 个 独立 的 ApplicationManager， 它 与 ResourceManager 通 信 以 获取 作业 所 需 资 源 。 


YARN 中 的 MapReduce 接 口 保持 不 变 ， 所 以 从 客户 的 角度 来 看 ， 所 有 现 有 代码 都 能 在 新 平台 
上 运行 。 但 是 由 于 新 开发 了 ApplicationManager， 我 们 更 倾向 于 把 Hadoop 视 为 支持 多 种 处 理 模型 
的 通用 任务 处 理 平台 ,早期 已 迁移 到 YARN 的 人 处理 模型 包括 基于 流 的 人 处理 模型 ,以 及 MPI Message 
Passing Interface ， 消 息 传递 接口 ) 的 一 个 端口 ， 它 在 科学 计算 中 得 到 了 广泛 使 用 。 

























































































11.3 ”其 他 版 本 的 Hadoop 软件 包 


回顾 第 2 章 内 容 , 我 们 从 Hadoop 主 页 下 载 其 安装 包 。 但 是 这 并 非 获得 Hadoop 的 唯一 方式 , i 
者 可 能 对 此 感到 奇怪 。 更 让 人 奇怪 的 是 ， 大 多 数 生 产 环境 中 使 用 的 Hadoop 并 不 是 Apache 提 供 的 
版 本 。 
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为 什么 会 有 其 他 版 本 

Hadoop 是 一 款 开 源 软件 。 任 何 遵守 Apache 软 件 许可 证 的 人 都 可 以 发 布 自 己 开发 的 Hadoop 版 
本 。 人 们 主要 出 于 两 个 考虑 来 创建 其 他 Hadoop 版 本 。 

1. 打包 

有 些 人 开发 这 些 安装 包 是 为 了 捆绑 其 他 软件 ， 例 如 Hive、HBase、Pig， 还 有 许多 其 他 项 目 。 
大 多 数 项 目的 安装 方法 差异 很 大 (HBase 是 个 例外 , 事实 证 明 它 的 手动 安装 更 为 困难 ), 一 些 细微 
的 版 本 不 兼容 问题 只 有 在 系统 处 理 特 殊 的 任务 时 才 会 显现 。 把 这 些 软件 打包 发 布 可 以 提供 一 组 兼 
容 的 软件 。 

2. 免费 的 和 商用 的 扩展 

作为 一 个 开源 项 目 ，Hadoop 软 件 包 的 发 布 相对 比较 自由 ， 开 发 人 员 可 以 自由 使 用 私有 扩展 
增强 Hadoop ， 使 其 既 可 以 成 为 免费 开源 产品 也 可 以 成 为 商业 产品 。 

这 是 一 个 有 争议 的 问题 , 一 些 开 源 支持 者 不 希望 把 任何 成 功 的 开源 产品 进行 商业 化 运作 。 在 
他 们 看 来 ,商业 公司 只 是 在 抽取 开源 社区 的 劳动 果实 ,无 须 自主 创建 这 些 软 件 即 可 不 劳 而 获 。 男 
一 些 人 认为 这 对 Apache 许 可 很 有 好 人 处, 基础 产品 永远 是 免费 的 , 个 人 用 户 和 商业 公司 可 以 选择 是 
否 使 用 商用 扩展 。 我 们 不 对 这 些 观 点 进行 任何 评论 ， 但 我 们 时 刻 面 对 着 这 个 争议 。 

理解 了 不 同 版 本 软件 包 的 由 来 之 后 ， 接 下 来 我 们 将 选取 几 个 较 受 欢迎 的 软件 版 本 进行 介绍 。 


@ Cloudera 开 发 的 Hadoop 版 本 








































































































Cloudera 开 发 的 Hadoop 安 装 包 是 目前 使 用 最 广泛 的 Hadoop 安 装 包 ， 以 后 简写 为 CDH 
( Cloudera Distribution for Hadoop )。 回 忆 一 下 ，Sqoop 即 是 由 Cloudera 公 司 开发 的 ， 然 后 将 其 捐献 
给 了 开源 团体 ，Doug Cutting 现 在 为 这 家 公司 效力 。 





读者 可 通过 http://www.cloudera.com/hadoop 了 解 Cloudera 版 Hadoop ， 同 时 该 页 面 还 包含 大 量 
Apache 产 品 ， 如 Hive、Pig、HBase、 Sqoop 和 Flume, 还 有 其 他 一 些 不 太 出 名 的 产品 ， 如 Mahout 
和 Whir。 我 们 稍 后 会 介绍 这 些 产 品 。 

CDH 提 供 了 多 种 格式 的 安装 包 供用 户 下 载 ， 并 以 即 装 即 用 的 方式 部 署 软件 。 例 如 ， 基 本 的 
Hadoop 产 品 被 分 成 多 个 不 同 的 安装 包 ， 分 别 对 应 着 NameNode 、TaskTracker 等 Hadoop 组 件 ， 每 个 
组 件 都 集成 了 标准 的 Linux 基 础 服务 。 

CDH 是 第 一 个 被 广泛 应 用 的 可 选 安装 包 ， 它 集成 了 很 多 实用 软件 ， 用 户 不 仅 可 免费 使 用 ， 
而 且 质量 可 靠 ， 因 此 很 多 用 户 都 选择 了 这 个 版 本 的 Hadoop。 
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另外 ，Cloudera 也 提供 了 其 他 商业 产品 ， 如 Hadoop 管 理工 具 、Hadoop 培 训 、 技 术 支 持 和 咨询 
服务 。 详 细 内 容 参 见 公司 主页 的 介绍 。 


@ Hortonworks 推 出 的 数据 平台 


20114E, ，Yahoo 公 司 内 部 负责 大 量 Hadoop 开 发 工作 的 部 门 被 独立 出 来 ， 成 立 了 一 个 名 为 
Hortonworks 的 新 公司 。 他 们 也 推出 了 自行 研发 的 预 集成 的 Hadoop 安 装 包 ， 取 名 为 Hortonworks 
Data Platform ( 简称 HDP )， 网 址 为 http://hortonworks.com/products/hortonworksdataplatform/。 


HDP 的 概念 与 CDH 相 似 ， 但 这 两 个 产品 的 侧重 点 有 所 不 同 。HDP， 甚 至 包括 其 管理 工具 在 
内 ， 基 本 上 是 一 个 完全 开源 的 产品 。HDP 还 提供 对 Talend Open Studio 的 支持 ，Hortonworks 公 司 
把 它 定 位 成 一 个 关键 的 集成 平台 。Hortonworks 公 司 不 提供 任何 商用 软件 ， 它 主要 通过 提供 专业 
服务 和 技术 支持 实现 僵 利 。 

Cloudera 和 Hortonworks 都 是 拥有 重要 工程 技术 的 风险 企业 ， 很 多 对 Hadoop 有 杰出 贡献 的 开 
发 人 员 都 受 雇 于 这 两 个 公司 。 但 是 , 它们 的 技术 基础 都 是 这 些 相 同 的 Apache 项 目 , 区别 在 于 软件 
集成 的 方式 不 同 ， 使 用 的 软件 版 本 不 同 ， 以 及 各 公司 提供 的 增值 服务 不 同 。 












































€ MapR 

MapR Technologies 公 司 提供 了 一 种 全 新 的 安装 包 ， 通 常人 们 把 这 家 公司 及 其 提供 的 软件 都 
简称 为 MapR。 读 者 可 通过 http:/www.maprcom 下 载 MapR, 它 虽然 同样 以 Hadoop 为 基础 , 但 进行 
了 一 些 改进 。 









































MapR 主 要 关注 软件 性 能 和 可 用 性 。 我 们 曾 在 第 7 章 讲 过 ，Hadoop NameNode 和 JobTracker 是 
Hadoop 核 心 组 件 的 薄弱 环节 , 而 MapR 率 先 实现 了 Hadoop NameNode 和 JobTracker 的 高 可 用 性 解决 
方案 。 MapR 还 集成 了 NFS 文 件 系 统 , 这 样 就 可 以 更 简便 地 处 理 现 有 数据 。 MapR 用 完全 兼容 POSIX 
的 文件 系统 代替 了 HDFS ， 便 于 远程 挂 接 。 


MapR 同 时 提供 了 免费 版 和 企业 版 软件 ， 但 免费 产品 只 能 使 用 其 部 分 扩展 功能 。 一 旦 用 户 购 
飞 了 企业 版 软件 ， 公 司 会 提供 相应 的 技术 支持 、 培 训 和 咨询 服务 。 


























€ IBM InfoSphere Big Insights 











本 节 讲 的 最 后 一 个 产品 来 自 IBEM 公 司 。 读 者 可 通过 http:/www-01.ibm.com/software/data/ 
infosphere/biginsights/ 下 载 到 IBM InfoSphere Big Insights 的 安装 包 。 和 MapR 一 样 ， 它 也 对 开源 
Hadoop 的 核心 组 件 进行 了 商业 改进 和 扩展 。 


IBM 分 别提 供 了 Big Insights 的 免费 版 和 企业 版 。 免 费 版 对 Apache Hadoop 产 品 进行 了 改进 ， 
新 增 了 一 些 免 费 的 管理 工具 和 部 署 工具 ， 同 时 还 集成 了 一 些 其 他 IBM 软 件 。 


企业 版 与 免费 版 的 差别 较 大 ， 它 不 仅仅 建立 在 Hadoop 基 础 之 上 ， 实 际 上 ， 它 还 可 以 与 CDH 
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或 HDP 共 同 使 用 。 企 业 版 提供 了 一 系列 的 数据 可 视 化 、 商 业 分 析 和 处 理工 具 。 它 还 深度 集成 了 IBM 
的 其 他 产品 ， 如 InfoSphere Streams、DB2 和 GPFS。 
3. 如 何 选择 合适 的 产品 


可 以 看 出 , 用 户 的 选择 范围 很 大 ,从 方便 安装 的 完全 开源 的 集成 产品 , 到 全 部 定制 的 集成 分 
析 工 具 。 每 种 产品 都 各 有 千秋 k, 用 户 在 选择 使 用 哪 款 产品 时 要 仔细 考虑 具体 需求 。 因 为 上 述 产品 
都 提供 了 基本 版 本 的 免费 下 载 ， 因 此 用 户 可 以 先 试 用 一 下 ， 然 后 再 选择 合适 的 产品 。 

















11.4 其 他 Apache 项 目 
无 论 用 户 用 的 是 集成 产品 ， 还 是 基本 的 Apache Hadoop ， 都 会 经 常 遇 到 需要 使 用 其 他 相关 的 
Apache 项 目的 情况 。 本 书 已 经 介绍 了 Hive、Sqoop 和 Flume， 接 下 来 将 重点 介绍 其 他 项 目 。 


需要 注意 的 是 ， 本 节 内 容重 在 突出 一 些 重点 项 目 〈 根据 我 的 理解 )， 同 时 尽量 介绍 更 多 的 各 
类 可 用 项 目 。 读 者 的 思路 要 开阔 一 些 ， 任 何 时 候 都 有 新 项 目 发 布 。 






































11.4.4 HBase 


HBase 也 许 是 最 受 欢 迎 但 本 书 尚未 提 到 的 与 Hadoop 相 关 的 Apache 项 目 ， 其 主页 地 址 为 
http://hbase.apache.org。 它 是 一 款 以 HDFS 为 基础 的 非 关 系数 据 库 ， 其 理论 基础 是 Google 在 一 篇 学 
术 论 文中 提 到 的 BigTable 数 据 存储 模型 。 


鉴于 MapReduce 和 Hive 任 务 都 侧重 于 成 批 地 访问 数据 ，HBase 正 好 相反 ， 它 力求 低 延迟 的 访 
问 数据 。 因 此 ， 与 之 前 提 到 的 其 他 技术 不 同 ，HBase 能 够 直接 支持 面向 用 户 的 服务 。 


HBase 并 没有 像 Hive 和 其 他 RDBMS 那 样 采用 关系 型 模型 ， 而 是 采用 了 面向 列 的 非 结 构 化 键 
值 模型 。 用 户 可 以 在 HBase 运 行 时 新 增 数据 列 ， 并 依据 数据 值 将 其 插入 HBase 中 的 合适 位 置 。 
为 HBase 实 现 了 从 原始 键 到 目标 列 的 高 效 映射 , 所 以 每 次 数据 查找 操作 的 执行 速度 都 很 快 。 HBase 
把 时 间 惟 当做 数据 的 另 一 个 属性 ， 因 些 可 以 直接 根据 时 间 点 检索 数据 。 

这 种 数据 模型 的 功能 非常 强大 , 但 并 不 适用 于 所 有 情况 , 就 像 关 系 模型 也 无 法 做 到 普遍 适用 
一 样 。 但 如 果 读 者 需要 低 延 迟 地 访问 存储 在 Hadoop 里 的 大 规模 结构 化 数据 ，HBase 绝 对 是 最 好 的 
选择 之 一 。 












































11.4.2 Oozie 


我 们 曾 多 次 讲 过 ，Hadoop 集 群 并 非 存 在 于 真空 中 ， 而 要 与 其 他 系统 集成 以 扩展 工作 流 的 概 
念 。Oozie 是 一 个 针对 Hadoop 开 发 的 工作 流 调度 工具 ， 其 主页 地 址 为 http://oozie.apache.org。 























304 第 11 章 展望 未 来 























Oozie 以 最 简单 的 模式 提供 了 执行 MapReduce 作 业 的 调度 机 制 ， 其 调度 原则 要 么 是 一 定 的 时 
间 段 〈 例 如， 每 小 时 执行 一 次 )， 要 么 是 数据 可 用 性 〈 例 如 ， 当 新 数据 到 达 时 执行 )。Oozie 还 可 
以 指定 多 级 工作 流 ， 它 们 可 以 描述 一 个 完整 的 端 到 端 流程 。 


除了 直接 调度 MapReduce 作 业 的 运行 之 外 ，Oozie 也 可 以 调度 Hive 或 Pig 命 令 的 运行 ， 甚 至 是 
完全 和 Hadoop 无 关 的 任务 ( 如 发 邮件 、 执 行 shell 脚 本 或 在 远程 机 上 运行 命令 )。 


用 户 可 通过 多 种 方式 构建 工作 流 ， 一 种 通用 的 方法 就 是 使 用 Pentaho Kettle (http://kettle. 
pentaho.com) 和 Spring Batch ( http://static.springsource.org/spring-batch ) 这 样 的 Extract Transform 
Load (ETL ) 工具 。 这 些 工 具 中 集成 了 部 分 Hadoop ， 但 传统 的 专用 的 工作 流 引 擎 可 能 并 不 包含 
这 些 集成 。 如 果 读 者 要 构建 一 个 Hadoop 交 互 工 作 流 ， 手 边 却 没有 一 款 满意 的 集成 了 Hadoop 的 工 
作 流 工具 ， 不 妨 考虑 一 下 Oozie。 









































11.4.3 Whir 


如 果 读 者 想 借 助 Amazon AWS 这 样 的 云 服 务 部 署 Hadoop ， 还 不 如 直接 使 用 更 高 级 的 
ElasticMapReduce 服 务 ， 而 不 必 再 基于 EC2 搭 建 自 有 集群 。 尽 管 Amazon 提 供 了 帮助 脚本 ， 但 在 云 基 
础 设施 上 部 署 Hadoop 依 然 非常 复杂 。 这 就 是 开发 Whir 的 初 表 ， 其 主页 地 址 为 http://whir.apache.org。 


Whir 并 非 专用 于 解决 Hadoop 的 部 署 问题 ， 它 是 一 个 通用 的 云 服 务 ， 并 不 限定 具体 的 应 用 程 
序 ，Hadoop 只 是 其 中 一 个 例子 。Whir 提 供 了 一 种 程序 化 的 方法 在 云 基础 设施 上 部 署 Hadoop， 它 
会 解决 所 有 底层 服务 的 问题 。 而 且 ， 它 与 云 服 务 提 供 商 无 关 ， 因 此 ， 假 如 读者 在 Amazon 提 供 的 
EC2 主 机 上 完成 了 Hadoop 的 配置 ， 那 就 可 以 用 相同 代码 在 其 他 云 上 ( 如 Rackspace 或 Eucalyptus ) 
完成 同样 的 设置 。 这 样 就 会 避免 在 不 同 云 服务 平台 上 部 署 应 用 程序 的 很 多 问题 。 


Whir 做 的 还 远 远 不 够 。 现 如 今 它 支持 的 服务 种 类 有 限 ， 并 且 只 支持 Amazon 提 供 的 AWS。 然 
而 ， 如 果 读 者 想 更 顺利 地 完成 云端 部 署 ， 有 必要 了 解 一 下 Whir。 






























































11.4.4 Mahout 


上 述 项 目 都 是 通用 的 ， 它 们 支持 任何 领域 的 应 用 程序 。 而 Apache Mahout 则 是 基于 Hadoop 和 
MapReduce 创 建 的 机 器 学 习 算法 库 ， 其 主页 地 址 为 http://mahout.apache.org。 


Hadoop 的 数据 处 理 模型 非常 适合 于 机 器 学 习 应 用 程序 ， 其 目标 即 是 从 大 规模 数据 集 凝 练 数 
据 价 值 和 数据 意义 。Mahout 实 现 了 很 多 常用 的 机 需 学 习 技 术 ， 例 如 聚 类 和 推荐 系统 。 

如 果 读 者 要 从 大 量 数据 中 找 出 关键 的 数据 模式 、 数 据 关 系 , 或 仅仅 是 像 大 海 找 针 一 样 找 出 某 
个 目标 值 ，Mahout 也 许 能 够 发 挥 作用 。 
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11.4.5 MRUnit 


我 们 即将 介绍 的 最 后 一 个 Apache Hadoop 项 目 再 次 突出 了 围绕 Hadoop 开 发 的 应 用 程序 种 类 
之 多 。 在 很 大 程度 上 ， 如 果 MapReduce 作 业经 常 由 于 隐藏 的 bug 而 失败 ， 那 么 读者 用 到 了 多 少 新 
技术 或 用 了 哪个 版 本 的 安装 包 已 变 得 毫 无 意义 。 最 近 推出 的 MRUnit 可 帮助 解决 这 个 问题 ， 其 主 
页 地 址 为 http://mrunit.apache.org。 


开发 MapReduce 作 业 有 一 定 的 困难 , 尤其 是 在 早期 阶段 , 但 对 它们 进行 测试 和 调试 一 直 都 令 
人 非常 头疼 。 顾 名 思 义 ，MRUnit 采 用 了 JUnit 和 DBUnit 这 两 种 单元 测试 模型 ， 并 提供 了 一 个 有 助 
于 编写 和 执行 测试 代码 的 框架 ， 可 帮助 用 户 提 高 代码 质量 。 构 建 测 试 集 、 自 动 化 测试 集成 工具 、 
编译 工具 以 及 所 有 软件 工程 的 最 好 做 法 ,MRUnit 提 供 了 读者 编写 非 MapReduce 代 码 时 做 梦 都 想 拥 
有 的 这 些 功 能 。 


如 果 读 者 曾 编写 过 任何 MapReduce 作 业 ， 就 会 觉得 MRUnit 很 有 意思 。 依 我 个 人 浅见 ， 它 是 
一 个 非常 重要 的 项 目 ， 值 得 读者 深入 人 研究。 



































11.5 ”其 他 程序 设计 模式 


人 们 不 仅 开发 了 扩展 Hadoop 功 能 的 应 用 程序 ， 同 时 也 出 现 了 其 他 编程 工具 ， 它 们 遵循 全 新 
的 编程 范式 。 








11.5.1 Pig 


我 们 在 第 8 章 提 到 过 Pig ( http://pig.apache.org )， 所 以 本 节 不 再 多 讲 其 他 内 容 。 一 定 要 记 住 ， 
与 编写 原始 MapReduce 代 码 或 HiveQL 脚 本 相 比 ， 定 义 Hadoop 处 理 过 程 的 数据 流 更 为 直观 且 更 适 
合 。Pig 与 Hive 的 主要 区 别 是 : Pig 是 一 个 命令 式 语言 , 它 定 义 了 数据 处 理 过 程 的 执行 方式 , 而 Hive 
更 侧重 于 描述 ， 它 定义 了 目标 结果 却 不 管 如 何 实现 这 个 目标 。 






































11.5.2 Cascading 


Cascading 并 不 是 一 个 Apache 项 目 , 但 它 也 是 开源 的 , 其 主页 地 址 为 http://www.cascading.org。 
Hive 和 Pig 使 用 不 同 语言 描述 数据 处 理 过 程 ， 而 Cascading 则 提供 了 一 系列 更 高 层 的 抽象 。 


它 无 需 考 虑 多 个 MapReduce 作 业 的 处 理 方式 以 及 如 何 与 Cascading 共 享 数 据 , 而 是 采用 了 数据 
流 的 数据 模型 。 数 据 流 中 用 到 了 管道 和 多 个 连接 器 、 分 接头 和 类 似 构 件 。 这 些 构件 是 以 编程 方式 
构建 的 〈 原始 的 核心 API 使 用 Java 语 言 ， 但 也 用 许多 其 他 语言 重 写 了 这 些 API )，Cascading 负 责 管 
理工 作 流 在 集群 上 的 翻译 、 调 度 和 执行 。 
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如 果 读 者 想 使 用 更 高 级 的 MapReduce 接 口 ,而 Pig 和 Hive 的 陈述 性 风格 又 不 太 合 适 , Cascading 
的 编程 模型 可 能 正 是 读者 想 要 的 。 



































11.6 AWS 资源 


许多 Hadoop 技 术 可 以 部 署 在 AWS 上 ， 作为 自 管理 集群 的 一 部 分 功能 。Amazon 提 供 了 对 弹性 
MapReduce 的 支持 ， 它 把 Hadoop 视 为 一 个 托管 服务 。 与 此 类 似 , 还 有 一 些 其 他 服务 也 可 以 实现 这 
种 托管 。 




















11.6.1 在 EMR 上 使 用 HBase 

事实 上 ， 这 并 不 是 一 个 独特 的 服务 ， 但 是 就 像 EMR 本 身 就 支持 Hive 和 Pig 服 务 一 样 ， 它 也 可 
以 对 HBase 集 群 提供 直接 支持 。 这 是 一 个 相对 较 新 的 功能 ， 还 需要 观察 一 下 它 在 实际 工作 中 的 效 
果 如 何 。 但 根据 以 往 经 验 ，HBase 对 网 络 质量 和 系统 负载 较为 敏感 。 























11.6.2 SimpleDB 


Amazon 推 出 的 SimpleDB 服 务 ( http://aws.amazon.com/simpledb ) 提供 了 类 似 HBase 的 数据 模 
型 。 事 实 上 ， 它 并 非 建立 在 Hadoop 基 础 之 上 ， 但 它 和 dynamodb 服 务 都 提供 了 托管 服务 ， 如 果 读 
者 对 类 似 HBase 的 数据 模型 感 兴趣 的 话 ， 可 以 考虑 使 用 它们 。 该 服务 早 在 几 年 前 就 已 经 推出 ， 实 
践 表 明 ， 它 对 使 用 案例 的 理解 已 经 非常 成 熟 。 

但 是 ，SimpleDB 也 存在 一 些 缺 隐 ， 尤 其 是 对 表 的 大 小 有 限制 ， 并 且 需 要 手工 对 大 数据 集 进 
行 分 区 。 但 如 果 读 者 只 需 使 用 HBase 类 型 系统 存储 小 规模 数据 ， 这 将 是 一 个 不 错 的 选择 。 并 且 该 
系统 易于 配置 ， 非 常 适合 用 于 处 理 基 于 列 的 数据 模型 。 















































11.6.3 DynamoDB 


近期 ，AWS 推 出 了 一 种 名 为 DynamoDB 的 新 服务 , 其 主页 地 址 为 http://aws.amazon.com/ 
dynamodb。 虽然 DynamoDB 和 SimpleDB、HBase 的 数据 模型 非常 相似 , 但 它 针对 的 是 其 他 应 用 类 
型 。 另 一 个 区 别 是 ，SimpleDB 提 供 了 非常 丰富 的 查询 API， 但 受 限于 数据 大 小 ， 而 DynamoDB 提 
上 共 的 API 数 量 有 限 却 几乎 能 够 支持 任意 规模 的 数据 。 


DynamoDB 的 定价 模式 很 有 意思 , 用 户 不 是 按照 使 用 的 服务 器 数量 支付 费用 ， 而 是 由 用 户 申 
请 的 读 写 容量 以 及 DynamoDB 为 满足 这 个 需求 而 提供 的 资源 来 计 费 。 这 种 纯粹 的 服务 模型 很 有 意 
思 ,， 用 户 完全 不 了 解 系统 是 如 何 实现 预期 性 能 的 。 如 果 读 者 要 存储 的 数据 规模 远 远 超 出 了 
SimpleDB 的 能 力 范围 , 不 妨 考 虑 下 DynamoDB, 但 也 要 好 好 考虑 其 定价 模型 ， 因 为 申请 太 多 的 空 
间 会 导致 用 户 成 本 急剧 上 升 。 

















11.7 获取 信息 的 渠道 307 





11.7 ”获取 信息 的 渠道 


无 论 这 些 新 技术 和 新 工具 功能 如 何 强大 ,用 户 可 不 兴 只 需要 这 些 新 技术 和 新 工具 。 茶 些 时 候 ， 
来 自 有 经 验 人 员 的 小 小 帮助 会 解决 用 户 的 困惑 。 读 者 不 必 担 心 这 方面 的 问题 , Hadoop 开 发 团队 在 
很 多 领域 的 能 力 都 很 强 。 








11.7.1 源 代码 

读者 有 时 容易 忽视 这 个 现象 : Hadoop 和 其 他 Apache 项 目 都 是 完全 开源 的 。 这 些 项 目的 源 代 
码 从 根本 上 解释 了 系统 的 工作 原理 。 熟悉 源 代码 并 且 跟 踪 某 些 功 能 的 实现 方式 可 以 为 用 户 提供 巨 
大 的 信息 量 ， 这 在 用 户 遇 到 意外 情况 的 时 候 能 够 提供 巨大 的 帮助 。 

















11.7.2 ”邮件 列表 和 论坛 


几乎 前 几 节 列 出 的 所 有 项 目 和 服务 都 建立 了 自己 的 邮件 列表 和 (或 ) 论坛 , 读者 可 在 相应 项 
目 主页 查看 特定 链接 。 如 果 读 者 使 用 的 是 AWS， 请 通过 https:/forums.aws.amazon.com 访 问 AWS 
开发 者 论坛 。 

勿 必要 仔细 阅读 相关 的 用 户 指 南 ， 并 了 解 预期 的 行为 。 这 些 指南 都 能 够 提供 大 量 信 息 , 包括 
开发 者 经 党 访问 的 某 些 项 目的 邮件 列表 和 论坛 。 用 户 可 以 在 Hadoop 邮 件 列表 找到 Hadoop 核 心 组 
件 的 开发 人 员 ， 在 Hive 邮 件 列表 找到 Hive 开 发 人 员 , 在 EMR 论 坛 找 到 EMR 开 发 人 员 ， 等 等 。 

















11.7.3 Linkedln 群 组 


在 LinkedIn 社 交 网 络 上 存在 很 多 Hadoop 和 相关 群 组 。 读 者 可 以 搜索 自己 感 兴趣 的 特定 领域 ， 
但 更 好 的 办 法 是 访问 通用 Hadoop 用 户 组 ， 其 网 址 为 http://www.linkedin.com/groups/Hadoop- 
Users-988957。 

















11.7.4 ”Hadoop 用 户 群 


如 果 读 者 想 获 得 更 多 面对面 的 交流 ， 可 以 参加 本 领域 的 HUG (Hadoop User Group, Hadoop 
用 户 群 )， 大 部 分 这 些 用 户 群 都 列 在 了 http://wiki.apache.org/hadoop/HadoopUserGroups 网 页 上 。 这 
些 Hadoop 用 户 群 通常 会 安排 一 些 非 正规 聚会 , 可 以 一 边 听 到 高 质量 的 演讲 , 一 边 手 拿 披萨 和 饮料 
与 志趣 相投 的 人 讨论 技术 。 


如 果 读 者 住 的 地 方 附近 没有 HUG 的 话 ， 可 以 考虑 组 织 一 个 ! 
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11.7.5 ZN 


虽然 Hadoop 是 一 门 相对 较 新 的 技术 ， 但 该 领域 已 经 举办 了 一 些 重要 的 会 议 活动 ,会议 主题 
包括 开源 项 目 、 学 术 研 究 和 商业 应 用 。Hadoop Summit 会 议 的 影响 力 非常 大 ,关于 它 和 另外 会 议 
的 介绍 参见 http://wiki.apache.org/hadoop/Conferences。 











11.8 小结 


本 章 快速 介绍 了 更 广泛 的 Hadoop 和 后 态 系统 。 我 们 依次 介绍 了 Hadoop 即 将 发 生 的 变化 ， 尤 其 
是 HDFS 高 可 用 性 和 YARN， 以 及 存在 其 他 版 本 Hadoop 安 装 包 的 原因 ， 并 列举 了 一 些 较 受 欢 迎 的 
版 本 ， 还 有 其 他 扩展 Hadoop 功 能 或 为 其 提供 支持 的 Apache 项 目 。 

我 们 还 介绍 了 编写 或 创建 Hadoop 作 业 的 其 他 方法 ， 如 何 获取 相关 信息 ， 以 及 怎样 与 其 他 
Hadoop 爱 好 者 取得 联系 。 


现在 尽情 享受 使 用 Hadoop 的 乐趣 ， 并 创建 出 让 人 惊叹 的 杰作 吧 ! 
































第 3 章 理解 Map Reduce 
随 堂 测验 : 键 值 对 


Q1 2 
Q2 3 


随 堂 测验 : MapReduce 的 结构 














Ql 1 
Q2 3 
Q3 (2) 不 能 使 用 Reducer C 作 为 combiner。 如 果 使 用 Reducer C 作 为 combiner，combiner 会 向 最 终 的 reducer 








输出 一 系列 平均 值 ， 而 reducer 却 不 知道 这 些 平均 值 是 通过 多 少 个 项 目的 数据 计算 出 来 的 , 意味 着 它 无 
法 计算 整体 平均 值 。 单纯 从 选取 每 个 键 的 最 大 值 和 最 小 值 的 角度 来 讲 ,Reducer D 是 可 以 用 于 combiner 
操作 的 。 但 如 果 想 要 计算 每 个 键 的 最 大 值 和 最 小 值 之 间 的 方差 , 这 就 行 不 通 了 。 如 果 某 个 键 的 最 大 值 
周边 数据 分 布 较为 集中 的 话 ， 方差 就 比较 小 。 类 似 地 ， 如 果 最 小 值 周边 数据 分 布 较为 集中 的 话 , 方差 
也 比较 小 。 这 些 子 区 间 内 存在 少数 几 个 孤立 值 ， 因 此 最 终 reducer 还 是 无 法 算出 想 要 的 结果 









































第 7 章 ”系统 运行 与 维护 


随 堂 测验 : 集群 配置 





























Q1 (5) 尽管 可 以 依据 通用 规则 决定 集群 的 硬件 配置 ， 但 最 好 想 想 集群 会 用 于 处 理 哪 种 作业 ， 最 佳 配置 最 





终 还 是 取决 于 数据 处 理 任务 

















Q2 (4) 网 络 存储 较 受 欢迎 ， 但 很 多 情况 下 ， 读 者 会 发 现 由 数 百 台 主 机 组 成 的 大 型 Hadoop 集 群 却 依赖 于 单 

一 存储 设备 。 这 就 为 集群 带 来 了 新 的 失败 风险 ， 而 且 这 一 风险 比划 
用 硬盘 元 余 技 术 解 决 存储 失效 问题 。 这 些 硬 盘 阵列 可 以 达到 很 高 的 性 能 , 但 读 写 成 本 较 大 。 让 Hadoop 
3 行 解决 失效 问题 ， 赋 予 其 在 同样 数量 的 硬盘 上 进行 并 行 存 取 的 能 力 ， 可 以 达到 更 高 的 性 能 











































































































他 风险 的 可 能 性 更 大 。 人 们 通常 使 








310 随 堂 测验 答案 

















( 续 ) 
Q3 (3) 我 们 建议 尽量 不 要 采用 第 一 种 配置 。 尽 管 这 种 配置 方案 提供 了 足够 的 存储 空间 ， 但 其 数据 处 理 能 


力 不 足 ,为 了 降低 硬件 升级 的 频率 ， 我 们 可 以 选择 更 优 的 方案 。 随 着 数据 量 的 增长 ,马上 就 需要 新 增 
主机 处 理 这 些 数据 。 而 MapReduce 作 业 复 杂 性 的 提升 ， 又 对 处 理 器 能 力 和 内 存 提出 了 更 高 的 要 求 
配置 方案 B 和 C 都 不 错 ， 因 为 它们 提供 了 过 剩 的 存储 空间 可 应 对 数据 量 的 增长 ， 并 提供 了 相似 的 处 理 器 
和 内 存 上 限 。 方 案 B 的 硬盘 WO 速率 较 高 ， 而 方案 C 的 CPU 性 能 更 好 。 因 为 主 作业 涉及 金融 建 模 和 预测 ， 
我 们 假设 每 个 任务 都 对 CPU 和 内 存 提出 了 严格 的 要 求 。 配 置 方案 B 的 LO 性 能 稍 高 一 些 ， 但 假如 处 理 器 利 
用 率 达 到 了 100%， 那 么 另 一 个 硬盘 就 得 不 到 有 效 利用 。 因 此 ， 处 理 器 性 能 更 好 的 主机 似乎 更 适合 用 在 
本 例 中 
配置 方案 D 远 超出 了 任务 需求 ， 这 也 正 是 没有 选用 该 方案 的 原因 。 我 们 为 何 要 多 花 钱 购买 远 超过 实际 
需要 的 硬件 呢 


























































































































本 书 揭 开 了 Hadoop 的 神秘 面纱 ， 它 着 重 讲解 了 如 何 应 用 Hadoop 和 相关 技术 搭建 工作 系统 并 完成 任务 。 在 读者 
明白 这 些 内 容 之 后 ， 又 介绍 了 如 何 使 用 云 服务 完成 相同 任务 。 本 书 从 Hadoop 的 基本 概念 和 初始 设置 入 手 ， 讲 
述 了 如 何 开发 Hadoop 程 序 ， 如 何在 数据 规模 增长 的 时 候 维 持 系 统 运行 ， 本 书 涵盖 了 有 效 使 用 Hadoop 处 理 实际 
问题 所 需 用 到 的 全 部 知识 。 


Hadoop 和 云 服 务 出 现 的 历史 背景 ， 以 及 何 时 适用 Hadoop 的 背景 知识 ; 

安装 并 配置 Hadoop 集 群 的 最 佳 方式 ， 根 据 手头 的 问题 调整 系统 配置 ; 

用 Java 和 Ruby 示 例 程序 讲解 如 何 编写 运行 在 Hadoop 上 的 程序 ; 

Amazon 网 络 服务 提供 的 托管 Hadoop 集 群 的 运行 方式 ， 以 及 它 与 用 户 直接 管理 的 Hadoop 集 群 有 何 区 别 ; 
Hadoop 与 关系 数据 库 的 融合 ， 使 用 Hive 执 行 SQL 查询 ， 使 用 Sqoop 迁 移 数据 ; 

组 成 Hadoop 生 态 系统 的 其 他 项 目 和 工具 ， 以 及 Hadoop 的 发 展 方向 。 


针对 初学 者 的 有 效 方法 
四 
C DFAS spp SERE 

c 摆脱 桔 燥 的 二 进 抽 


o 有 局 发 意义 的 理想 的 案例 能够 市 给 
读者 灵感 ， 从 而 解决 面临 的 问题 


D “促进 读者 动手 练习 的 作业 和 习题 
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E 子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同行 还 在 犹 。 ”图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 
洛 簿 特 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行动 拥抱 这 个 。 ”紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 网 上 
出 版 业 巨变 。 作 为 国内 第 一 家 发 售 电 子 图 书 的 IT 类 出 f 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模 
版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 DRM-free 的 阅读 式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 以 较 
体验 : 在 线 阅读 和 PDF。 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 
往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾。 同时 ， 敏 

相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势 。 它 不 仅 发 。 。。 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 
" 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 《 即 使 。 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 
有 的 书 纸 质 版 是 黑 自 印刷 的 ) 。 读 者 还 可 以 方便 地 进 。 i 质量。 

行 搜索 、 剪 贴 、 复 制 和 打印 。 

最 方便 的 开放 出 版 平台 最 直接 的 读者 交流 平台 

图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 
版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 你 就 能 联 。 ”” 误 、 发 表 评论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 员 和 
合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 。 ”其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 
的 形式 提供 给 读者 。 (收费 形式 须 经 过 图 灵 社 区 立项 。 银子 。 
评审 。) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 

的 意愿 ， 图 灵 社 区 就 能 帮助 你 实现 这 个 上 梦想。 成熟 的 。 。 ”你 可 以 积极 参与 社区 经 常 开展 的 沪 痰 、 审 读 、 评 选 
书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 等 多 种 活动 ， 启 取 积 分 和 银子 ， 积 累 个 人 声望 。 
图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 
社区 公布 。 如 果 你 有 意 翻译 哪 本 图 书 ， 欢 迎 你 来 社区 

请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 















































译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 
需要 有 坚强 的 角力 的 。 





























